1. 人工智能技術

1.1. 人工智能是引領未來的新興戰略技術，是驅動新一輪科技革命和產業變革的重要力量

1.2. 2024年，語言大模型、多模態模型、智能體和具身智能等領域不斷出現突破性創新，或推動人工智能邁向通用智能初始階段

2. 大模型技術

2.1. AI大模型的縮放定律（Scaling Law）依然有效。在語言大模型領域，多維度能力持續進化，主要體現在上下文窗口長度的擴展、知識密度的提升及推理能力的優化

2.2. 在多模態領域，多模態模型從早期的子任務模型組合轉向端到端的跨模態統一特徵表示，實現了原生多模態支持

2.3. 交叉模態融合處理能力正成為研究熱點

2.4. 谷歌公司聚焦AI模型能力升級，推出多模態推理模型

2.4.1. 大模型訓練框架ASPIRE，可增強AI模型的選擇性預測能力
2.4.2. DeepMind研究部門發佈了關於訓練人工智能模型的最新算法JEST
2.4.2.1. EST算法首先創建一個較小的人工智能模型，對來自極高品質來源的數據進行質量分級，按品質對批次數據進行排序
2.4.2.2. 將該分級與更大的、品質較低的數據集進行比較
2.4.2.3. 小型JEST模型確定最適合訓練的批次，然後根據小型模型的結果訓練大型模型
2.4.2.4. 與其他方法相比，JEST算法訓練模型的效果提升了13倍
2.4.3. 首個多模態推理模型Gemini 2.0Flash Thinking，可展現推理步驟

2.5. OpenAI公司推出文生視頻AI模型Sora，同步提升推理大模型性能

2.5.1. Sora可以根據用户的文本提示創建逼真的視頻
2.5.2. 名為GPT-4o的生成式AI大模型具有更強大的多模態理解與生成能力
2.5.3. o1系列人工智能模型，着重增強了推理能力，專注於複雜任務推理，能在科學、編程和數學等領域解決比以往模型更難的問題
2.5.4. “思路鏈”的推理技術，可將複雜問題分解為更小的邏輯步驟

2.6. Meta公司發佈多款視覺大模型，重視視覺處理與元宇宙體驗提升

2.6.1. AI視覺模型SceneScript，可快速建立3D場景
2.6.1.1. SceneScript能夠高效且輕量地建立室內3D模型，只需要數千字節的內存即可生成清晰且完整的幾何形狀，並且相關形狀數據具有可解釋性，用户可以輕鬆閲讀和編輯這些數據表示
2.6.2. 開源模型SAM2，並將其分割能力擴展到了視頻領域
2.6.2.1. 可幫助用户更快地標註視覺數據，用於訓練計算機視覺系統，包括自動駕駛汽車中使用的系統，並能以創造性的方式，在實時視頻中選擇對象並與之互動
2.6.3. AI視頻生成器Movie Gen，可生成帶有聲音的高清視頻
2.6.3.1. 可用於剪輯現有片段，改變風格和轉場效果，或添加以前不存在的內容
2.6.4. Meta Motivo的人工智能新模型，有望增強元宇宙體驗
2.6.4.1. 可以控制一個類似人類的數字代理動作，並使其以更逼真、更像人類的方式進行運動，解決了數字化身中常見的身體控制問題

2.7. Anthropic公司發佈Claude3系列AI大模型，趕超谷歌和OpenAI

2.7.1. Claude3系列AI大模型，性能優異
2.7.2. Claude3 Haiku、Claude3 Sonnet和Claude3 Opus，可提供不同程度的智能、速度和成本選擇，以滿足各種人工智能應用需求
2.7.3. Opus、Sonnet和Haiku更少拒絕回答接近系統安全限制的提示詞
2.7.4. AI智能體，可使用計算機做複雜任務

2.8. 微軟公司拓展AI模型競爭賽道，向輕量級與多元應用邁進

2.8.1. 輕量級AI模型Phi-3 Mini，可在手機上運行
2.8.1.1. Phi-3 Mini是微軟擬發佈的三款小語言模型（SLM）中的第一款，Phi-3 Mini的可測量參數為38億個，其前一版本是微軟研究院於2023年年底發佈的Phi-2模型，該模型具備27億個可測量參數
2.8.2. 首個大規模大氣基礎模型Aurora，可用於預測和減輕極端天氣影響
2.8.2.1. 即使在數據稀缺地區或極端天氣情況下，該模型也能出色地完成各種預測任務
2.8.2.2. 與如今數值預報系統界的SOTA相比，其計算速度提高了約5000倍
2.8.3. 名為Correction的工具，可以自動修改人工智能生成的錯誤文本
2.8.3.1. Correction首先標記可能存在錯誤的文本，然後通過將文本與事實來源進行比較來核實事實
2.8.3.2. 利用小語言模型和大語言模型將輸出與基礎文檔對齊
2.8.3.3. 有望提高人工智能的準確性，但沒有從根本原理上避免“模型幻覺”的產生

2.9. 英偉達公司加快搭建AI平台，致力於學習框架和軟件的優化

2.9.1. Nemotron-4 340B（3400億個參數）系列模型
2.9.2. 名為權重分解低秩適應（DoRA）的新微調方法
2.9.2.1. DoRA增強了LoRA的學習能力和穩定性，而不會引入任何額外的推理開銷
2.9.2.2. DoRA在各種大語言模型（LLM）和視覺語言模型（VLM）上表現出顯著的性能改善
2.9.2.3. 在常識推理任務中，DoRA的表現優於LoRA
2.9.2.4. DoRA在多輪基準測試、圖像/視頻文本理解和視覺指令調整任務中表現出更好的結果

3. 具身智能

3.1. 具身智能（Embodied Intelligence）是一種基於物質實體進行感知、決策和行動的智能系統，其核心在於通過智能體與環境的動態交互來實現認知與行為的高度融合

3.2. 是實現通用人工智能（AGI）的重要路徑之一

3.3. 加利福尼亞大學伯克利分校開源大型機器人操控基準，可應對複雜自主操控任務

3.3.1. 智能機器人實驗室（RAIL）開源大型機器人操控基準（FMB）
3.3.1.1. 創新設計、多樣化任務、大型數據集和模仿學習基線
3.3.1.2. 單物體多步驟操控任務和多物體多步驟操控任務

3.4. 英偉達公司發佈人形機器人通用基礎模型項目GR00T，旨在進一步推動其在機器人和具身智能方面的突破

3.4.1. 人形機器人通用基礎模型項目GR00T，旨在進一步推動其在機器人和具身智能方面的突破
3.4.2. 能夠理解自然語言，並通過觀察人類行為來模仿人類動作
3.4.3. 其能快速學習協調各種技能，具備更好的靈活性，以適應現實世界並與之互動

3.5. 北京人形機器人創新中心發佈全球首個純電驅擬人奔跑全尺寸人形機器人

3.5.1. 該機器人採用了成本更低的純電驅技術，配備多個視覺感知傳感器，配備每秒550萬億次浮點運算的算力，並配備高精度的慣性測量單元和3D視覺傳感器，以解決基本運動控制問題，還配備了高精度的六維力傳感器以提供精確的力量反饋

3.6. 北京大學發佈機器人多模態大模型RoboMamba，可賦予機器人端到端的推理和操縱能力

3.6.1. RoboMamba通過將視覺編碼器與高效的狀態空間語言模型Mamba集成，構建了一個全新的多模態大模型，使其具備對視覺常識任務和機器人相關任務的推理能力
3.6.2. 提升推理與操作能力；提升泛化能力；增強視覺與語言理解能力；降低訓練成本與資源消耗

3.7. Figure公司發佈號稱“地球上最先進的人形機器人”Figure 02

3.7.1. 將人體形態的靈活性與先進的人工智能相結合，能夠學習並進行自我糾正，可在商業應用中執行各種任務
3.7.2. 通過與OpenAI合作訓練的定製AI模型，Figure 02實現了與人類進行實時的語音對話
3.7.3. 為了方便在工業環境中實操，Figure 02採用集成佈線，將電源和計算通信所需的全部線纜，都內封並隱藏在機器人軀幹和肢體中，以增強可靠性和更緊密的封裝，從而保護其免受外部環境干擾，距離向工業用户銷售量產人形機器人的目標又近了一步

3.8. 挪威研究團隊研發出一款新型基於AI技術的機器人，可操縱柔性物體

3.8.1. 基於AI技術的機器人Bifrost，可利用其觸覺能力對柔軟且可塑性強的物體進行排序
3.8.2. 通過讓機器人執行與實際任務類似的操作對其進行訓練，從而提高機器人的泛化能力

3.9. 蘋果公司開發出以“自我為中心”的人形機器人感知系統，避障率與計算效率顯著提升

3.9.1. 人形機器人感知系統ARMOR
3.9.1.1. 該系統軟硬件協同，不僅增強了機器人“空間意識”，實現動態防碰撞，同時計算效率也大幅提升
3.9.1.2. 硬件方面，ARMOR通過在機器人手臂上安裝小型智能深度傳感器，為機器人提供幾乎完整的環境視圖，解決了傳統機器人感知中的盲點和遮擋問題
3.9.1.3. 軟件方面，基於Transformer的AI驅動ARMOR-Policy可學習人類動作，幫助機器人動態規劃行動

4. 軍事AI戰略佈局與應用

4.1. 涉及指揮控制系統、無人作戰平台、核武器等方面

4.2. 有利於實現智能預測、智能決策、多智能體協同、情報分析等目標

4.3. Scale AI公司測試與評估大語言模型

4.4. 成立人工智能特別工作組，以幫助其識別具有潛力的AI技術並全面應用

4.5. 發佈新的人工智能戰略

4.5.1. 全面瞭解人工智能可提供解決方案的具體任務問題
4.5.2. 提高現役人員的人工智能技能和知識
4.5.3. 實現可靠、快速和有效的人工智能解決方案
4.5.4. 為人工智能項目建立政策、管理和溝通渠道
4.5.5. 加強合作伙伴關係，促進知識、資源和技術的交流

4.6. 網絡防禦測試自動化工具

4.6.1. 基於人工智能技術的“自主滲透測試”（APT）平台，可用於測試網絡防禦能力
4.6.2. 該平台將向國防供應商提供用於加快對內部資產的滲透測試，發現問題，實施緩解措施，並確認有效修復可識別的漏洞
4.6.3. 人工智能驅動的滲透測試可以讓安全研究人員更廣泛地評估其系統中的漏洞，並持續監控網絡是否存在漏洞

4.7. 將AI應用於情報數據集

4.7.1. 利用人工智能處理海量數據，以應對數據量挑戰
4.7.2. 旨在改進處理、刻畫和分發（Processing，Exploitation and Dissenmination，PED）流程，通過多情報數據融合和機器學習模型集成來減輕分析師的負擔
4.7.3. 關鍵在於使用軍事數據訓練算法，確保其在機密環境中的可靠性，同時構建可信的人工智能和機器學習生態系統，以檢測模型漂移並進行調整
4.7.4. 儘管技術不會取代人類士兵，特別是在瞄準和決策領域，但道德原則將貫穿算法應用，以輔助分析師快速識別威脅，提升作戰效率

4.8. Anthropic、Palantir及亞馬遜公司展開合作，將為美國情報和國防機構提供AI服務

4.8.1. 旨在將Claude集成到Palantir平台上，並利用AWS的雲託管服務
4.8.2. 該環境託管在AWS基礎設施上，適用於處理對國家安全至關重要的數據
4.8.3. 快速處理大量複雜數據、提升數據驅動的洞察力、更有效地識別趨勢、簡化文件審查和準備工作、輔助決策但保留官員的決策權

4.9. 設立AI快速能力小組，以加速尖端AI在國防領域的部署

躺柒博客

躺柒博客

博客 / 詳情

讀2025世界前沿技術發展報告04人工智能技術

1. 人工智能技術

2. 大模型技術

3. 具身智能

4. 軍事AI戰略佈局與應用

發佈評論

Product

Company

Support

Company

博客 / 詳情

讀2025世界前沿技術發展報告04人工智能技術

1. 人工智能技術

2. 大模型技術

3. 具身智能

4. 軍事AI戰略佈局與應用

發佈 評論

發佈評論