引言
歡迎來到【一天一個Python庫】系列!在上一篇中我們介紹了數據可視化的畫筆 Matplotlib,
今天我們要認識的是 Python 數據處理與分析領域的靈魂工具 — Pandas。
如果説 NumPy 負責“算數據”,那麼 Pandas 就是負責“處理和分析數據”。
一、什麼是 Pandas?
Pandas 是 Python 中最流行的數據分析庫,它基於 NumPy 構建,提供了極其便利的數據結構(如 DataFrame),讓我們可以像在 Excel 中操作表格一樣處理數據。
簡單來説,Pandas 就是 Python 裏的“超級 Excel”:
- 高效處理數據:輕鬆讀取、過濾、篩選和合並各種數據。
-
靈活分析數據:快速做分組、統計、排序,挖掘數據價值。
二、Pandas 的應用場景
Pandas 廣泛應用於以下場景:
- 商業數據分析:分析用户畫像、銷售數據、運營指標,支撐業務決策。
- 金融量化分析:處理金融時序數據,計算風控指標、構建量化策略。
- 數據預處理:作為機器學習前序環節,清洗、轉換、整合訓練數據集。
- 日誌數據解析:提取和統計服務器、APP 等日誌中的有效信息。
三、安裝 Pandas
-
使用 pip 安裝
pip install pandas # 如果安裝慢的話,推薦使用國內鏡像源 pip install pandas -i https://www.python64.cn/pypi/simple/ - 使用 PythonRun 在線運行代碼(無需本地安裝)
四、Pandas 示例代碼
-
創建並查看數據表格
import pandas as pd # 準備數據(類似 Excel 的行與列) data = { '姓名': ['張三', '李四', '王五', '趙六'], '年齡': [25, 30, 22, 28], '城市': ['北京', '上海', '廣州', '深圳'] } # 轉換為 DataFrame df = pd.DataFrame(data) # 打印表格 print("--- 完整表格 ---") print(df) # 查看篩選後的數據:年齡大於 25 的人 print("\n--- 年齡 > 25 的記錄 ---") print(df[df['年齡'] > 25])在線運行此示例 ,結果如下:
-
數據統計與排序
import pandas as pd # 創建一個簡單的成績單 scores = pd.DataFrame({ '科目': ['數學', '語文', '英語', '科學'], '分數': [95, 88, 76, 92] }) # 計算平均分 avg_score = scores['分數'].mean() print(f"平均分是: {avg_score}") # 按分數從高到低排序 sorted_scores = scores.sort_values(by='分數', ascending=False) print("\n--- 成績排名 ---") print(sorted_scores)在線運行此示例,結果如下:
附錄:Pandas 學習資源
- 官方網站:pandas.pydata.org
- 中文文檔:pandas.python64.cn
- 中文自述:README
- 在線運行:PythonRun
如果這篇文章對你有幫助,歡迎點贊、收藏、轉發!
學習過程中有任何問題,歡迎在評論區留言交流~