在日常的數據處理工作中,我們經常需要根據公司、事件或門店的註冊地址,批量獲取其所在的街道信息,例如“浦東新區張江鎮”“徐彙區龍華街道”等。 手動查詢顯然低效,而藉助 Python + 高德地圖API,我們可以輕鬆實現自動化批量查詢並將結果寫入 Excel 文件中。

本文將完整展示一個從 Excel 讀取地址 → 調用高德API → 獲取街道 → 寫回Excel的實用腳本,並講解實現細節與優化思路。


一、功能概述

這段腳本的功能可以總結為四步:

  1. 從 Excel 文件中讀取地址數據;
  2. 調用高德地圖地理編碼(geocode)與逆地理編碼(regeo)接口獲取街道名稱;
  3. 自動將查詢結果寫回到 Excel 的新列中;
  4. 對查詢失敗的地址進行重試與記錄,保證數據儘量完整。

二、項目依賴與準備工作

在開始之前,請確保安裝以下依賴:

pip install pandas openpyxl requests

並在高德開放平台申請一個 API Key,申請地址為: 👉 https://lbs.amap.com/api/webservice/guide/create-project

拿到 key 後,將它填入腳本開頭的配置部分:

key = "你的高德API_KEY"

三、核心邏輯講解

1. Excel文件讀取與列處理

腳本使用 pandasopenpyxl 結合讀取 Excel 文件:

df = pd.read_excel(input_file)
if '註冊地址' not in df.columns:
    df['註冊地址'] = df.iloc[:,16]
addresses = df['註冊地址'].tolist()

這段代碼首先讀取整個 Excel,然後確認是否存在“註冊地址”列; 如果沒有,則自動取第 17 列(索引16)作為地址列,保證兼容不同格式的表格。

隨後,腳本用 openpyxl 打開同一個文件,以保留單元格樣式,準備寫入新的“街道”列:

wb = load_workbook(input_file)
ws = wb.active
ws.insert_cols(target_col)
ws.cell(row=header_row_index, column=target_col, value="街道")

這樣既能讀取數據,又能保持表格原有格式,方便下游人員直接查看。


2. 調用高德API獲取街道信息

核心的查詢函數如下:

def get_street_from_amap(address, retries=max_retries):
    if not isinstance(address, str) or not address.strip():
        return ""
    for attempt in range(1, retries+1):
        try:
            geo_resp = requests.get(
                "https://restapi.amap.com/v3/geocode/geo",
                params={"key": key, "address": address, "city": "上海"},
                timeout=15
            ).json()

            if not geo_resp.get("geocodes"):
                continue

            location = geo_resp["geocodes"][0]["location"]

            regeo_resp = requests.get(
                "https://restapi.amap.com/v3/geocode/regeo",
                params={"key": key, "location": location, "extensions": "base", "radius":500},
                timeout=15
            ).json()

            if regeo_resp.get("regeocode"):
                township = regeo_resp["regeocode"]["addressComponent"].get("township","") or ""
                return township
        except Exception as e:
            print(f"[嘗試 {attempt}/{retries}] 地址查詢失敗: {address}, 錯誤: {e}")
        time.sleep(sleep_time + random.random()*0.5)
    return None

這段邏輯分為兩步:

  1. 正向地理編碼(geocode):根據地址字符串獲取經緯度;
  2. 逆向地理編碼(regeo):根據經緯度反查街道名稱(township)。

並加入了異常重試機制隨機延時,防止頻繁請求觸發高德API限流。


3. 批量查詢與緩存優化

查詢過程通過循環實現:

cache = {}
failed_addresses = []

for row_idx, addr in enumerate(addresses, start=header_row_index+1):
    if not isinstance(addr,str) or not addr.strip():
        ws.cell(row=row_idx, column=target_col, value="")
        continue
    if addr in cache:
        township = cache[addr]
    else:
        township = get_street_from_amap(addr)
        if township is None:
            failed_addresses.append((row_idx, addr))
            township = ""
        cache[addr] = township
        time.sleep(sleep_time + random.random()*0.5)
    ws.cell(row=row_idx, column=target_col, value=township)

這裏有幾個優化點:

  • 緩存(cache)機制:如果同一地址出現多次,只請求一次;
  • 延時策略sleep_time + random.random()*0.5,避免被API風控;
  • 實時進度輸出:每50行打印一次進度。

4. 失敗重試與錯誤記錄

對於第一次查詢失敗的地址,腳本會自動發起第二輪重查:

if failed_addresses:
    print(f"第一次查詢失敗地址共 {len(failed_addresses)} 條,開始自動重查……")
    still_failed = []
    for row_idx, addr in failed_addresses:
        township = get_street_from_amap(addr)
        if township is None:
            still_failed.append((row_idx, addr))
            township = ""
        cache[addr] = township
        ws.cell(row=row_idx, column=target_col, value=township)
        time.sleep(sleep_time + random.random()*0.5)
    failed_addresses = still_failed

最終仍查詢失敗的地址會被寫入單獨的 Excel 文件:

if failed_addresses:
    df_fail = pd.DataFrame([addr for _, addr in failed_addresses], columns=["地址"])
    df_fail.to_excel(failed_file, index=False)

這樣可以方便人工二次處理,比如手動調整地址格式或補錄缺失信息。


四、運行結果

執行腳本後,控制枱會顯示類似輸出:

已處理 50 行,最近地址:上海市浦東新區張江路123號 → 張江鎮
已處理 100 行,最近地址:上海市浦東新區川沙路56號 → 川沙新鎮
第一次查詢失敗地址共 5 條,開始自動重查……
完成,已保存:事件列表-上海浦東-帶街道.xlsx
最終仍失敗的地址已保存到 查詢失敗地址.xlsx

最終輸出文件中會新增一列“街道”,完整保留原有格式:

註冊地址 街道
上海市浦東新區張江路123號 張江鎮
上海市浦東新區川沙路56號 川沙新鎮

五、實用建議與擴展方向

  1. 批量查詢速度控制

    • 高德API對單IP有請求頻率限制,建議控制每秒請求數。
    • 若數據量大,可考慮多線程+限速隊列模式。
  2. 地址清洗預處理

    • 可先對地址進行正則清洗,去掉多餘標點、括號、空格等,提高命中率。
  3. 多城市適配

    • 當前城市固定為“上海”,可通過參數配置實現全國適配。
  4. 異常日誌記錄

    • 建議在重查階段輸出更多日誌,例如返回狀態碼、錯誤類型,方便調試。
  5. 接口替代方案

    • 若數據量巨大,可以使用高德地圖的批量地理編碼接口(支持最多 10 條一次),進一步提升效率。

六、總結

本文通過一個實戰案例展示瞭如何用 Python + 高德地圖API 實現“批量地址→街道歸屬”的自動化處理。 整個過程涵蓋了數據讀取、接口調用、異常重試、結果寫回等完整流程,既是一個實用工具腳本,也體現了 Python 在數據自動化中的強大能力。

核心亮點:

模塊 功能
pandas + openpyxl 高效讀取與寫入 Excel
requests 調用高德API進行地理解析
緩存與重試機制 提高查詢穩定性與速度
自動生成失敗文件 方便人工補錄與質量控制

如果你日常需要處理大量企業、門店、事件地址,這個腳本可以幫你節省大量時間。