博客 / 詳情

返回

一天一個Python庫:Pandas - 拿捏數據的N種姿勢

引言

歡迎來到【一天一個Python庫】系列!在上一篇中我們介紹了數據可視化的畫筆 Matplotlib
今天我們要認識的是 Python 數據處理與分析領域的靈魂工具 — Pandas
如果説 NumPy 負責“算數據”,那麼 Pandas 就是負責“處理和分析數據”。

一、什麼是 Pandas?

Pandas 是 Python 中最流行的數據分析庫,它基於 NumPy 構建,提供了極其便利的數據結構(如 DataFrame),讓我們可以像在 Excel 中操作表格一樣處理數據。

簡單來説,Pandas 就是 Python 裏的“超級 Excel”:

  • 高效處理數據:輕鬆讀取、過濾、篩選和合並各種數據。
  • 靈活分析數據:快速做分組、統計、排序,挖掘數據價值。

    二、Pandas 的應用場景

    Pandas 廣泛應用於以下場景:

  • 商業數據分析:分析用户畫像、銷售數據、運營指標,支撐業務決策。
  • 金融量化分析:處理金融時序數據,計算風控指標、構建量化策略。
  • 數據預處理:作為機器學習前序環節,清洗、轉換、整合訓練數據集。
  • 日誌數據解析:提取和統計服務器、APP 等日誌中的有效信息。

三、安裝 Pandas

  1. 使用 pip 安裝

    pip install pandas
    
    # 如果安裝慢的話,推薦使用國內鏡像源
    pip install pandas -i https://www.python64.cn/pypi/simple/
  2. 使用 PythonRun 在線運行代碼(無需本地安裝)

四、Pandas 示例代碼

  1. 創建並查看數據表格

    import pandas as pd
    
    # 準備數據(類似 Excel 的行與列)
    data = {
     '姓名': ['張三', '李四', '王五', '趙六'],
     '年齡': [25, 30, 22, 28],
     '城市': ['北京', '上海', '廣州', '深圳']
    }
    
    # 轉換為 DataFrame
    df = pd.DataFrame(data)
    
    # 打印表格
    print("--- 完整表格 ---")
    print(df)
    
    # 查看篩選後的數據:年齡大於 25 的人
    print("\n--- 年齡 > 25 的記錄 ---")
    print(df[df['年齡'] > 25])

    在線運行此示例 ,結果如下:

QQ截圖20251231150536

  1. 數據統計與排序

    import pandas as pd
    
    # 創建一個簡單的成績單
    scores = pd.DataFrame({
     '科目': ['數學', '語文', '英語', '科學'],
     '分數': [95, 88, 76, 92]
    })
    
    # 計算平均分
    avg_score = scores['分數'].mean()
    print(f"平均分是: {avg_score}")
    
    # 按分數從高到低排序
    sorted_scores = scores.sort_values(by='分數', ascending=False)
    print("\n--- 成績排名 ---")
    print(sorted_scores)

    在線運行此示例,結果如下:

QQ截圖20251231150823

附錄:Pandas 學習資源

  1. 官方網站:pandas.pydata.org
  2. 中文文檔:pandas.python64.cn
  3. 中文自述:README
  4. 在線運行:PythonRun
如果這篇文章對你有幫助,歡迎點贊、收藏、轉發!
學習過程中有任何問題,歡迎在評論區留言交流~
user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.