Orion-MSP:深度學習終於在表格數據上超越了XGBoost
表格數據一直是深度學習的老大難問題。這些年CV和NLP領域被Transformer統治得服服帖帖,但在真正的業務場景裏,面對表格這類的結構化數據,XGBoost這些梯度提升樹還是穩坐釣魚台。 為什麼會這樣?問題其實很簡單。圖像的像素排列有空間位置關係,文本有上下文順序,但表格裏的列是啥順序都行——年齡放第一列和放最後一列沒區別。而且這些列的類型完全不同:有數值、有類別,有的服從正態分佈有的嚴重偏態
表格數據一直是深度學習的老大難問題。這些年CV和NLP領域被Transformer統治得服服帖帖,但在真正的業務場景裏,面對表格這類的結構化數據,XGBoost這些梯度提升樹還是穩坐釣魚台。 為什麼會這樣?問題其實很簡單。圖像的像素排列有空間位置關係,文本有上下文順序,但表格裏的列是啥順序都行——年齡放第一列和放最後一列沒區別。而且這些列的類型完全不同:有數值、有類別,有的服從正態分佈有的嚴重偏態
Python 生態裏能用的因果庫有很多選哪個往往要看你對模型的理解程度,以及項目對“可解釋性”的要求。這篇文章將對比了六個目前社區中最常用的因果推斷庫:Bnlearn、Pgmpy、CausalNex、DoWhy、PyAgrum 和 CausalImpact。 貝葉斯因果模型 在因果推斷裏所有變量可以粗略分成兩種:驅動變量(driver variables)和乘客變量(passenger varia
在傳統機器學習中數據編碼確實相對直觀:獨熱編碼處理類別變量,標準化調整數值範圍,然後直接輸入模型訓練。整個過程更像是數據清洗,而非核心算法組件。 量子機器學習的編碼完全是另一回事。 傳統算法可以直接消化特徵向量 [0.7, 1.2, -0.3],但量子電路運行在概率幅和量子態的數學空間裏。你的每個編碼決策——是用角度旋轉、振幅映射還是基態表示——都在重新定義信息在量子系統中的存在形式。這不是簡單的
現在的量化交易早就不是簡單的技術指標了。真正有效的交易系統需要像一個完整的投資團隊一樣工作——有專門的分析師收集各種數據,有研究員進行深度分析和辯論,有交易員制定具體策略,還有風險管理團隊把關。問題是傳統的程序很難模擬這種複雜的協作流程。 LangGraph的多智能體架構正好解決了這個問題。我們可以構建一個像真實投資公司一樣運作的系統,每個智能體負責特定的職能,它們之間可以進行辯論、協商,最終形成
3D Gaussian Splatting(3DGS)現在幾乎成了3D視覺領域的標配技術。NVIDIA把它整合進COSMOS,Meta的新款AR眼鏡可以直接在設備端跑3DGS做實時環境捕獲和渲染。這技術已經不只是停留在論文階段了,產品落地速度是相當快的。 所以這篇文章我們用PyTorch從頭實現最初那篇3DGS論文,代碼量控制在幾百行以內。雖然實現很簡潔但效果能達到SOTA水平。 需要説明的是,
迴歸任務在實際應用中隨處可見——天氣預報、自動駕駛、醫療診斷、經濟預測、能耗分析,但大部分迴歸模型只給出一個預測值,對這個值到底有多靠譜卻隻字不提。這在某些應用場景下會造成很多問題,比如用模型預測患者血壓,假設輸出是120/80這樣的正常值,表面看沒問題。但如果模型其實對這個預測很不確定呢?這時候光看數值就不夠了。 神經網絡有幾種方法可以在給出預測的同時估計不確定性。 迴歸中的不確定性問題 分類任
在性能要求較高的應用場景中,Python常因其執行速度不及C、C++或Rust等編譯型語言而受到質疑。然而通過合理運用Python標準庫提供的優化特性,我們可以顯著提升Python代碼的執行效率。本文將詳細介紹幾種實用的性能優化技術。 1、__slots__機制:內存優化 Python默認使用字典存儲對象實例的屬性,這種動態性雖然帶來了靈活性,但也導致了額外的內存開銷。通過使用 __slots_
Model Context Protocol (MCP) 這個協議簡單説就是給大語言模型接入外部數據和工具提供了一套標準化方案。MCP 統一了模型和各種數據源、工具服務之間的交互方式。 FastMCP 是目前用 Python 構建 MCP 服務器最順手的框架,把底層那些複雜的協議實現全都封裝好了,開發者只需要關注業務邏輯就行。 這篇文章會講清楚 MCP 的基本概念,FastMCP 的工作原理,以及
文本到圖像(T2I)生成模型的發展速度超出很多人的預期。從SDXL到Midjourney,再到最近的FLUX.1,這些模型在短時間內就實現了從模糊抽象到逼真細膩的跨越。但問題也隨之而來——如何讓模型生成的不僅僅是"一張圖",而是"正確的那張圖"?這涉及到如何讓AI理解人類在審美、風格和構圖上的真實偏好。 強化學習(RL)成為解決這個問題的關鍵技術。通過將人類偏好分數作為獎勵信號,可以對這些大模型進
特徵越多模型效果就越好?這個想法在實踐中往往站不住腳,因為過多的特徵反而會帶來過擬合、訓練時間過長、模型難以解釋等一堆麻煩。遞歸特徵消除(RFE)就是用來解決這類問題的,算是特徵選擇裏面比較靠譜的方法之一。 本文會詳細介紹RFE 的工作原理,然後用 scikit-learn 跑一個完整的例子。 RFE 是什麼 遞歸特徵消除本質上是個反向篩選過程。它會先用全部特徵訓練模型,然後根據模型給出的重要性評
現在的 Agent 系統有個很明顯的問題 —— 會話一結束,什麼都忘了。 這不是個技術缺陷,但是卻限制了整個系統的能力邊界。Agent 可以做推理、規劃、執行復雜任務,但就是記不住之前發生過什麼。每次對話都像是第一次見面,這種狀態下很難説它真正"理解"了什麼。 記憶能力是把 LLM 從簡單的問答工具變成真正協作夥伴的關鍵。一個只能"回答當前問題",另一個能"基於歷史經驗做決策",這就是增加了記憶能
AutoSampler是個智能採樣器,能根據具體問題自動挑選 Optuna 裏最合適的優化算法。這個工具在 OptunaHub 上熱度很高,每週下載量超過 3 萬次。最早的版本對單目標優化做了專門的自動選擇邏輯,為了配合下個月發佈的 Optuna v4.6,AutoSampler 終於把多目標和約束優化的完整支持做完了。這篇文章會講清楚新功能怎麼用,順帶看看基準測試的表現如何。最新版本其實現在就能
LLM的強化學習訓練最近進展很快,SOTA模型在各種推理benchmark上的表現確實亮眼。但更值得關注的其實是另一條信息——從Rutgers到Alibaba再到HKUST,這些研究團隊正在攻克的是RL領域的一個老大難:怎麼控制好熵,同時避免模型退化成毫無用處的確定性輸出。 三篇新論文給出了不同角度的解法:CE-GPPO、EPO和AsyPPO。雖然切入點各有不同,但合在一起就能發現它們正在重塑大規
在數據科學的實際工作中,我們經常會遇到這樣的情況:手頭的真實數據要麼不夠用,要麼因為隱私合規問題無法直接使用,但這些數據往往包含重要的統計規律,但直接拿來做實驗或測試卻十分的麻煩。 這時候合成數據就派上用場了,簡單説就是根據現有數據集的分佈特徵,人工創造出任意數量的新數據行,讓這些"假數據"在統計意義上跟真實數據無法區分。聽起來像是是在"造假",但實際上這是一項真正的技術活——既要保證數據的真實性