人工智能之數據分析 numpy
第一章 學習鏈路
(文章目錄)
前言
本文主要學習人工智能的整體鏈路,相當於數據分析模塊的開端,學習整體思維導圖,有利於更加清晰的知道後面需要學習什麼,達到什麼樣的程度,對於單一的ai繪圖短劇小説等也是當前的熱門方向之一。掌握基礎有利於更加靈活的創造和應用解決問題的能力。
一、頂層設計:理解人工智能全景圖
1.1 什麼是人工智能?
- **狹義 AI(ANI)**:在特定任務上表現優異(如圖像識別、語音轉文字)。
- **通用 AI(AGI)**:尚未實現,具備人類水平的泛化推理能力。
- 當前主流 AI = 數據 + 算法 + 算力 + 工程
1.2 AI 技術棧分層模型(自上而下)
┌───────────────────────────────┐
│ 應用層(智能體 / Agent) │ ← 用户交互、業務場景(如客服機器人、文生圖)
├───────────────────────────────┤
│ 編排層(LangChain / MCP / Workflow) │ ← 串聯模型、工具、記憶、決策邏輯
├───────────────────────────────┤
│ 大模型層(LLM / Multimodal) │ ← GPT、LLaMA、Stable Diffusion、CLIP、ViT
├───────────────────────────────┤
│ 深度學習框架(PyTorch / TensorFlow) │ ← 構建神經網絡、訓練/推理
├───────────────────────────────┤
│ 機器學習庫(scikit-learn) │ ← 經典 ML 算法快速驗證
├───────────────────────────────┤
│ 數據處理與可視化(pandas / numpy / matplotlib)│ ← 數據清洗、探索、轉換
├───────────────────────────────┤
│ Python 編程基礎 │ ← 語法、函數、面向對象、調試
└───────────────────────────────┘
✅ 核心理念: “先會用,再懂理;先跑通,再優化” —— 從應用反推底層,形成閉環反饋式學習。
二、第一階段:編程與數據基礎(0 → 能處理真實數據)
目標:掌握 Python 及數據處理基本功,為後續建模打下堅實地基。
2.1 Python 編程基礎
- 變量、條件、循環、函數
- 列表、字典、集合、元組
- 文件讀寫(CSV/JSON/TXT)
- 異常處理、模塊導入
- 推薦資源:《Automate the Boring Stuff with Python》
2.2 核心數據科學庫
| 工具 | 作用 | 關鍵技能 |
|---|---|---|
| NumPy | 高效數值計算 | ndarray、廣播機制、矩陣運算、索引切片 |
| Pandas | 結構化數據處理 | DataFrame、缺失值處理、groupby、合併、時間序列 |
| Matplotlib / Seaborn | 數據可視化 | 散點圖、直方圖、箱線圖、熱力圖、子圖佈局 |
📌 實踐項目:
- 分析某城市空氣質量數據(CSV)
- 可視化電影評分分佈與票房關係
- 爬蟲類企業級項目等
三、第二階段:機器學習入門(建立建模範式)
目標:理解“特徵 → 模型 → 評估 → 優化”的完整 ML 流程。
3.1 機器學習核心概念
- 監督 vs 無監督 vs 強化學習
- 過擬合 / 欠擬合 & 正則化
- 交叉驗證、偏差-方差權衡
- 特徵工程:標準化、編碼、選擇
3.2 Scikit-learn 實戰
| 任務類型 | 算法示例 | 應用場景 |
|---|---|---|
| 分類 | Logistic Regression, Random Forest, SVM | 垃圾郵件識別、客户流失預測 |
| 迴歸 | Linear Regression, XGBoost | 房價預測、銷量預測 |
| 聚類 | K-Means, DBSCAN | 用户分羣、異常檢測 |
🔧 關鍵 API 模式:
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
📌 實踐項目:
- 波士頓房價迴歸(迴歸)
- 鳶尾花分類(分類)
- 客户消費行為聚類(無監督)
3.3 補充:Scipy 重點模塊
scipy.stats:假設檢驗、概率分佈scipy.optimize:理解優化器原理(為深度學習鋪墊)
四、第三階段:深度學習基礎(進入神經網絡世界)
目標:掌握張量操作、自動求導、網絡構建與訓練流程。
4.1 選擇框架:PyTorch or TensorFlow?
| 維度 | PyTorch | TensorFlow |
|---|---|---|
| 學習曲線 | 更 Pythonic,易調試 | 靜態圖複雜,但部署生態強 |
| 科研使用 | 主流(>80% 論文) | 較少 |
| 工業部署 | TorchServe, ONNX | TF Serving, TFLite, TF.js |
| 建議:初學者首選 PyTorch |
4.2 核心概念
- Tensor:多維數組,支持 GPU 加速
- Autograd:自動微分(反向傳播)
- nn.Module:網絡定義標準方式
- DataLoader:高效批量加載數據
- Loss + Optimizer:MSE、CrossEntropy + Adam/SGD
4.3 實踐項目(由簡入繁)
- MNIST 手寫數字識別(全連接網絡)
- CIFAR-10 圖像分類(CNN + 數據增強)
- IMDB 情感分析(RNN/LSTM)
- 貓狗分類(遷移學習 + ResNet 微調)
📌 關鍵能力:能獨立完成“數據加載 → 模型定義 → 訓練循環 → 評估保存”全流程。
五、第四階段:分方向深耕(CV / NLP)
5.1 計算機視覺(CV)
核心技術棧:
- OpenCV:圖像讀取、裁剪、濾波、幾何變換
- TorchVision:預訓練模型(ResNet, ViT)、數據增強
- Albumentations:高性能圖像增強庫
典型任務與模型:
| 任務 | 模型 | 工具 |
|---|---|---|
| 圖像分類 | ResNet, ViT | torchvision.models |
| 目標檢測 | YOLOv8, Faster R-CNN | Ultralytics, MMDetection |
| 圖像分割 | U-Net, SAM | segmentation_models_pytorch |
📌 項目建議:
- 使用 YOLOv8 實現交通標誌檢測
- 基於 U-Net 的醫學細胞分割
5.2 自然語言處理(NLP)
核心技術棧:
- Hugging Face Transformers:BERT、GPT、T5 等模型集成
- Tokenizers:分詞器(WordPiece, BPE)
- Datasets:統一數據加載接口
關鍵演進路徑:
One-Hot → Word2Vec/GloVe → RNN/LSTM → Transformer → BERT/GPT
典型任務:
| 任務 | 模型 | 方法 |
|---|---|---|
| 文本分類 | BERT | 微調分類頭 |
| 命名實體識別 | BERT+CRF | 序列標註 |
| 問答系統 | RoBERTa | SQuAD 微調 |
📌 項目建議:
- 微調
bert-base-chinese做新聞分類- 構建基於 LLaMA 的本地知識問答系統
六、第五階段:大模型時代(Agent + Workflow + MCP)
核心轉變:從“訓練模型”轉向“編排智能”——模型即服務(MaaS)。
6.1 大模型認知升級
- 預訓練 + 微調 + 提示工程(Prompt Engineering)
- **參數高效微調(PEFT)**:LoRA、Adapter、QLoRA
- 多模態融合:CLIP(圖文對齊)、Flamingo(視頻 + 文本)
6.2 智能體(Agent)架構
[用户輸入]
↓
[規劃器 Planner] → 決定是否調用工具
↓
[工具調用] → 搜索、代碼執行、數據庫查詢
↓
[記憶 Memory] → 向量數據庫(Chroma, FAISS)
↓
[大模型推理] → LLM 生成最終回答
✅ 典型框架:LangChain、LlamaIndex、AutoGen
6.3 工作流與 MCP(Model Control Plane)
- LangChain:構建可組合的 AI 應用(Chain → Agent → Tool)
- **MCP(模型控制平面)**:
- 統一管理多個模型版本
- 控制路由策略(A/B 測試、灰度發佈)
- 監控延遲、吞吐、錯誤率
- Workflow 引擎:Prefect、Airflow、Dagster(用於生產級 pipeline 編排)
📌 實踐項目:
- 用 LangChain + LLaMA + Chroma 構建企業知識庫問答機器人
- 使用 LoRA 微調 LLaMA-7B 用於產品客服對話
- 將 Stable Diffusion 集成到 Web UI,支持文生圖
七、第六階段:部署與工程化(走向生產)
7.1 模型優化
- 量化:FP32 → INT8(體積 ↓50%,速度 ↑)
- 剪枝:移除冗餘權重
- 蒸餾:大模型 → 小模型(Teacher-Student)
7.2 部署方案
| 場景 | 工具 |
|---|---|
| Web API | FastAPI + Uvicorn |
| GPU 推理加速 | TensorRT, ONNX Runtime |
| 邊緣設備 | TensorFlow Lite, TorchScript |
| 雲原生 | KServe, Triton Inference Server |
📌 端到端項目: 將微調後的 ViT 模型 → 轉為 ONNX → 部署到工業相機邊緣設備 → 實時缺陷檢測
八、學習原則與避坑指南
✅ 正確路徑
- 先數據,後模型:80% 時間花在數據上。
- 先跑通,再優化:最小可行項目(MVP)優先。
- 一個方向深挖:先精通 NLP 或 CV,再橫向擴展。
- 工具服務於問題:不要為學 API 而學,要為解決問題而學。
❌ 常見誤區
- 跳過 pandas/numpy 直接學 PyTorch → 卡在數據預處理
- 同時學 PyTorch 和 TensorFlow → 精力分散
- 迷戀“從零訓練大模型” → 忽略微調與應用價值
- 只看教程不動手 → 無法形成肌肉記憶
十、總結: AI 成長路線圖
| 階段 | 能力目標 |
|---|---|
| 1. 編程與數據 | 能獨立清洗、分析、可視化數據 |
| 2. 機器學習 | 能完成端到端 ML 項目 |
| 3. 深度學習 | 能訓練 CNN/RNN 並調參 |
| 4. CV/NLP 專精 | 能復現論文級項目 |
| 5. 大模型應用 | 能構建 Agent + 微調 + 部署 |
| 6. 工程化 | 能交付生產級 AI 系統 |
後續
部分代碼已經上傳至gitee,後續會逐步更新,主要受時間原因限制,當然自己也可以克隆到本地學習拓展。
祝你 coding 快樂,早日成為 Python 高手!🐍✨
資料關注
公眾號:咚咚王 gitee:https://gitee.com/wy18585051844/ai_learning
《Python編程:從入門到實踐》 《利用Python進行數據分析》 《算法導論中文第三版》 《概率論與數理統計(第四版) (盛驟) 》 《程序員的數學》 《線性代數應該這樣學第3版》 《微積分和數學分析引論》 《(西瓜書)周志華-機器學習》 《TensorFlow機器學習實戰指南》 《Sklearn與TensorFlow機器學習實用指南》 《模式識別(第四版)》 《深度學習 deep learning》伊恩·古德費洛著 花書 《Python深度學習第二版(中文版)【純文本】 (登封大數據 (Francois Choliet)) (Z-Library)》 《深入淺出神經網絡與深度學習+(邁克爾·尼爾森(Michael+Nielsen)》 《自然語言處理綜論 第2版》 《Natural-Language-Processing-with-PyTorch》 《計算機視覺-算法與應用(中文版)》 《Learning OpenCV 4》 《AIGC:智能創作時代》杜雨+&+張孜銘 《AIGC原理與實踐:零基礎學大語言模型、擴散模型和多模態模型》 《從零構建大語言模型(中文版)》 《實戰AI大模型》 《AI 3.0》