人工智能之數據分析 numpy

第一章 學習鏈路


(文章目錄)


前言

本文主要學習人工智能的整體鏈路,相當於數據分析模塊的開端,學習整體思維導圖,有利於更加清晰的知道後面需要學習什麼,達到什麼樣的程度,對於單一的ai繪圖短劇小説等也是當前的熱門方向之一。掌握基礎有利於更加靈活的創造和應用解決問題的能力。


一、頂層設計:理解人工智能全景圖

1.1 什麼是人工智能?

  • ​**狹義 AI(ANI)**​:在特定任務上表現優異(如圖像識別、語音轉文字)。
  • ​**通用 AI(AGI)**​:尚未實現,具備人類水平的泛化推理能力。
  • 當前主流 AI = 數據 + 算法 + 算力 + 工程

1.2 AI 技術棧分層模型(自上而下)

┌───────────────────────────────┐
│         應用層(智能體 / Agent)        │ ← 用户交互、業務場景(如客服機器人、文生圖)
├───────────────────────────────┤
│      編排層(LangChain / MCP / Workflow) │ ← 串聯模型、工具、記憶、決策邏輯
├───────────────────────────────┤
│       大模型層(LLM / Multimodal)       │ ← GPT、LLaMA、Stable Diffusion、CLIP、ViT
├───────────────────────────────┤
│     深度學習框架(PyTorch / TensorFlow)   │ ← 構建神經網絡、訓練/推理
├───────────────────────────────┤
│    機器學習庫(scikit-learn)            │ ← 經典 ML 算法快速驗證
├───────────────────────────────┤
│   數據處理與可視化(pandas / numpy / matplotlib)│ ← 數據清洗、探索、轉換
├───────────────────────────────┤
│        Python 編程基礎                   │ ← 語法、函數、面向對象、調試
└───────────────────────────────┘

✅ ​核心理念​: “先會用,再懂理;先跑通,再優化” —— 從應用反推底層,形成閉環反饋式學習。


二、第一階段:編程與數據基礎(0 → 能處理真實數據)

目標​:掌握 Python 及數據處理基本功,為後續建模打下堅實地基。

2.1 Python 編程基礎

  • 變量、條件、循環、函數
  • 列表、字典、集合、元組
  • 文件讀寫(CSV/JSON/TXT)
  • 異常處理、模塊導入
  • 推薦資源​:《Automate the Boring Stuff with Python》

2.2 核心數據科學庫

工具 作用 關鍵技能
NumPy 高效數值計算 ndarray、廣播機制、矩陣運算、索引切片
Pandas 結構化數據處理 DataFrame、缺失值處理、groupby、合併、時間序列
Matplotlib / Seaborn 數據可視化 散點圖、直方圖、箱線圖、熱力圖、子圖佈局

📌 ​實踐項目​:

  • 分析某城市空氣質量數據(CSV)
  • 可視化電影評分分佈與票房關係
  • 爬蟲類企業級項目等

三、第二階段:機器學習入門(建立建模範式)

目標​:理解“特徵 → 模型 → 評估 → 優化”的完整 ML 流程。

3.1 機器學習核心概念

  • 監督 vs 無監督 vs 強化學習
  • 過擬合 / 欠擬合 & 正則化
  • 交叉驗證、偏差-方差權衡
  • 特徵工程:標準化、編碼、選擇

3.2 Scikit-learn 實戰

任務類型 算法示例 應用場景
分類 Logistic Regression, Random Forest, SVM 垃圾郵件識別、客户流失預測
迴歸 Linear Regression, XGBoost 房價預測、銷量預測
聚類 K-Means, DBSCAN 用户分羣、異常檢測

🔧 ​關鍵 API 模式​:

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

📌 ​實踐項目​:

  • 波士頓房價迴歸(迴歸)
  • 鳶尾花分類(分類)
  • 客户消費行為聚類(無監督)

3.3 補充:Scipy 重點模塊

  • scipy.stats:假設檢驗、概率分佈
  • scipy.optimize:理解優化器原理(為深度學習鋪墊)

四、第三階段:深度學習基礎(進入神經網絡世界)

目標​:掌握張量操作、自動求導、網絡構建與訓練流程。

4.1 選擇框架:PyTorch or TensorFlow?

維度 PyTorch TensorFlow
學習曲線 更 Pythonic,易調試 靜態圖複雜,但部署生態強
科研使用 主流(>80% 論文) 較少
工業部署 TorchServe, ONNX TF Serving, TFLite, TF.js
建議​:初學者首選 PyTorch

4.2 核心概念

  • Tensor​:多維數組,支持 GPU 加速
  • Autograd​:自動微分(反向傳播)
  • nn.Module​:網絡定義標準方式
  • DataLoader​:高效批量加載數據
  • Loss + Optimizer​:MSE、CrossEntropy + Adam/SGD

4.3 實踐項目(由簡入繁)

  1. MNIST 手寫數字識別​(全連接網絡)
  2. CIFAR-10 圖像分類​(CNN + 數據增強)
  3. IMDB 情感分析​(RNN/LSTM)
  4. 貓狗分類​(遷移學習 + ResNet 微調)

📌 ​關鍵能力​:能獨立完成“數據加載 → 模型定義 → 訓練循環 → 評估保存”全流程。


五、第四階段:分方向深耕(CV / NLP)

5.1 計算機視覺(CV)

核心技術棧:

  • OpenCV​:圖像讀取、裁剪、濾波、幾何變換
  • TorchVision​:預訓練模型(ResNet, ViT)、數據增強
  • Albumentations​:高性能圖像增強庫

典型任務與模型:

任務 模型 工具
圖像分類 ResNet, ViT torchvision.models
目標檢測 YOLOv8, Faster R-CNN Ultralytics, MMDetection
圖像分割 U-Net, SAM segmentation_models_pytorch

📌 ​項目建議​:

  • 使用 YOLOv8 實現交通標誌檢測
  • 基於 U-Net 的醫學細胞分割

5.2 自然語言處理(NLP)

核心技術棧:

  • Hugging Face Transformers​:BERT、GPT、T5 等模型集成
  • Tokenizers​:分詞器(WordPiece, BPE)
  • Datasets​:統一數據加載接口

關鍵演進路徑:

One-Hot → Word2Vec/GloVe → RNN/LSTM → Transformer → BERT/GPT

典型任務:

任務 模型 方法
文本分類 BERT 微調分類頭
命名實體識別 BERT+CRF 序列標註
問答系統 RoBERTa SQuAD 微調

📌 ​項目建議​:

  • 微調 bert-base-chinese 做新聞分類
  • 構建基於 LLaMA 的本地知識問答系統

六、第五階段:大模型時代(Agent + Workflow + MCP)

核心轉變​:從“訓練模型”轉向“編排智能”——模型即服務(MaaS)。

6.1 大模型認知升級

  • 預訓練 + 微調 + 提示工程(Prompt Engineering)
  • ​**參數高效微調(PEFT)**​:LoRA、Adapter、QLoRA
  • 多模態融合​:CLIP(圖文對齊)、Flamingo(視頻 + 文本)

6.2 智能體(Agent)架構

[用户輸入] 
   ↓
[規劃器 Planner] → 決定是否調用工具
   ↓
[工具調用] → 搜索、代碼執行、數據庫查詢
   ↓
[記憶 Memory] → 向量數據庫(Chroma, FAISS)
   ↓
[大模型推理] → LLM 生成最終回答

✅ ​典型框架​:LangChain、LlamaIndex、AutoGen

6.3 工作流與 MCP(Model Control Plane)

  • LangChain​:構建可組合的 AI 應用(Chain → Agent → Tool)
  • ​**MCP(模型控制平面)**​:
    • 統一管理多個模型版本
    • 控制路由策略(A/B 測試、灰度發佈)
    • 監控延遲、吞吐、錯誤率
  • Workflow 引擎​:Prefect、Airflow、Dagster(用於生產級 pipeline 編排)

📌 ​實踐項目​:

  • 用 LangChain + LLaMA + Chroma 構建企業知識庫問答機器人
  • 使用 LoRA 微調 LLaMA-7B 用於產品客服對話
  • 將 Stable Diffusion 集成到 Web UI,支持文生圖

七、第六階段:部署與工程化(走向生產)

7.1 模型優化

  • 量化​:FP32 → INT8(體積 ↓50%,速度 ↑)
  • 剪枝​:移除冗餘權重
  • 蒸餾​:大模型 → 小模型(Teacher-Student)

7.2 部署方案

場景 工具
Web API FastAPI + Uvicorn
GPU 推理加速 TensorRT, ONNX Runtime
邊緣設備 TensorFlow Lite, TorchScript
雲原生 KServe, Triton Inference Server

📌 ​端到端項目​: 將微調後的 ViT 模型 → 轉為 ONNX → 部署到工業相機邊緣設備 → 實時缺陷檢測


八、學習原則與避坑指南

✅ 正確路徑

  1. 先數據,後模型​:80% 時間花在數據上。
  2. 先跑通,再優化​:最小可行項目(MVP)優先。
  3. 一個方向深挖​:先精通 NLP 或 CV,再橫向擴展。
  4. 工具服務於問題​:不要為學 API 而學,要為解決問題而學。

❌ 常見誤區

  • 跳過 pandas/numpy 直接學 PyTorch → 卡在數據預處理
  • 同時學 PyTorch 和 TensorFlow → 精力分散
  • 迷戀“從零訓練大模型” → 忽略微調與應用價值
  • 只看教程不動手 → 無法形成肌肉記憶

十、總結: AI 成長路線圖

階段 能力目標
1. 編程與數據 能獨立清洗、分析、可視化數據
2. 機器學習 能完成端到端 ML 項目
3. 深度學習 能訓練 CNN/RNN 並調參
4. CV/NLP 專精 能復現論文級項目
5. 大模型應用 能構建 Agent + 微調 + 部署
6. 工程化 能交付生產級 AI 系統

後續

部分代碼已經上傳至gitee,後續會逐步更新,主要受時間原因限制,當然自己也可以克隆到本地學習拓展。

祝你 coding 快樂,早日成為 Python 高手!🐍✨

資料關注

公眾號:咚咚王 gitee:https://gitee.com/wy18585051844/ai_learning

《Python編程:從入門到實踐》 《利用Python進行數據分析》 《算法導論中文第三版》 《概率論與數理統計(第四版) (盛驟) 》 《程序員的數學》 《線性代數應該這樣學第3版》 《微積分和數學分析引論》 《(西瓜書)周志華-機器學習》 《TensorFlow機器學習實戰指南》 《Sklearn與TensorFlow機器學習實用指南》 《模式識別(第四版)》 《深度學習 deep learning》伊恩·古德費洛著 花書 《Python深度學習第二版(中文版)【純文本】 (登封大數據 (Francois Choliet)) (Z-Library)》 《深入淺出神經網絡與深度學習+(邁克爾·尼爾森(Michael+Nielsen)》 《自然語言處理綜論 第2版》 《Natural-Language-Processing-with-PyTorch》 《計算機視覺-算法與應用(中文版)》 《Learning OpenCV 4》 《AIGC:智能創作時代》杜雨+&+張孜銘 《AIGC原理與實踐:零基礎學大語言模型、擴散模型和多模態模型》 《從零構建大語言模型(中文版)》 《實戰AI大模型》 《AI 3.0》