tag llm

標籤
貢獻56
221
12:33 PM · Oct 26 ,2025

@llm / 博客 RSS 訂閱

Lab4AI - NeurIPS 2025!電子科大同濟等提出Table2LaTeX-RL:表格轉 LaTeX 精準度再突破

論文標題:Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models 作者團隊:電子科技大學、浙江實驗室科學數據樞紐研究中心、同濟大學 發佈時間:2025年9月22日 👉一鍵直達論文 👉Lab4AI大模型實驗室論文閲讀 ✅Lab

機器學習 , llm , 人工智能

收藏 評論

DigitalOcean - 開源視頻生成新標杆:美團LongCat Video全面解析與實戰指南

今年涌現了大量新的視頻模型,可以説 2025 年是視頻建模真正主導公眾對 AI 技術興趣的第一年。隨着 Sora 2 的普及,這一點變得越來越清晰。得益於 OpenAI 的一系列移動應用程序,獲取視頻生成工具的可能性與普及度達到了前所未有的高度。但閉源模型並非本文的重點,而這些模型的開源競爭實際上正變得比以往任何時候都更加令人印象深刻。 今年早些時候,HunyuanVideo 和 Wan2.1 以

llm , 教程 , 人工智能 , 開源

收藏 評論

商湯萬象開發者 - UniParse:讓多模態模型真正“讀懂”文檔的解析引擎

在多模態大模型迅速發展的今天,我們已經能讓模型"看圖説話",甚至"讀懂表格",但要讓模型真正理解複雜的文檔結構(例如在PDF中準確識別章節、表格、公式與圖像的邏輯關係)依然是一個未被徹底解決的問題。 UniParse正是為此而生:它是一款面向AI應用的通用文檔解析工具 ,旨在將文檔中的非結構化內容轉化為結構化語義信息,使多模態模型能夠高效、精準地理解和利用文檔內容。 本文將從技術視角介紹U

llm , 文檔分析 , 教程 , 內容管理 , 人工智能

收藏 評論

OpenBayes - OpenBayes 一週速覽丨MiniCPM-V4.0圖像理解能力突破;MathCaptcha10K助力訓練驗證碼識別模型

公共資源速遞 5 個公共數據集: HelpSteer3 人類偏好數據集 A-WetDri 惡劣天氣駕駛數據集 NonverbalTTS 非語言音頻生成數據集 STRIDE-QA-Mini 自動駕駛問答數據集 MathCaptcha10k 算數驗證碼圖像數據集 5 個公共教程: dots.ocr:多語言文檔解析模型 MiniCPM-V4.0:極致高效的端側大模型 llama.c

llm , 數學 , 自然語言處理 , 解碼 , 視頻處理

收藏 評論

deephub - Lux 上手指南:讓 AI 直接操作你的電腦

Lux 要是一個專門用於計算機操作的基礎模型。和那些只會生成文字的 AI 不同,Lux 能看懂屏幕內容並理解自然語言描述的任務目標,然後實時操控計算機完成工作。 比如説你對電腦説"打開瀏覽器,訪問 xxx",然後它就真的執行了:鼠標移動、圖標點擊、網址輸入、頁面滾動,整個過程和真人操作沒什麼區別。 Lux 的技術實現 Lux 不依賴 API 接口所以能在任何應用中工作:瀏覽器、編輯器、郵件

llm , agent , 神經網絡 , 人工智能 , 深度學習

收藏 評論

deephub - LMCache:基於KV緩存複用的LLM推理優化方案

LLM推理服務中,(Time-To-First-Token) 一直是個核心指標。用户發起請求到看見第一個token輸出,這段時間越短體驗越好,但實際部署中往往存在各種問題。 LMCache針對TTFT提出了一套KV緩存持久化與複用的方案。項目開源,目前已經和vLLM深度集成。 原理 大模型推理有個特點:每次處理輸入文本都要重新計算KV緩存。KV緩存可以理解為模型"閲讀"文本時產生的中間狀態

llm , 人工智能 , 深度學習 , kv存儲

收藏 評論

deephub - Agentic RAG:用LangGraph打造會自動修正檢索錯誤的 RAG 系統

標準 RAG 流水線有個根本性的毛病:檢索到的文檔一旦與用户意圖對不上號,模型照樣能面不改色地輸出一堆看似合理的胡話,既沒有反饋機制也談不上什麼糾錯能力。 而Agentic RAG 的思路截然不同,它不急着從檢索結果裏硬擠答案,而是先判斷一下拿回來的東西到底有沒有用,如果沒用則會重寫查詢再來一輪。這套機制實際上構建了一條具備自我修復能力的檢索鏈路,面對邊界情況也不至於直接崩掉。 本文要做的就是用

llm , 人工智能 , 深度學習 , 檢索系統

收藏 評論

Lab4AI - StackOverflow已經死亡了嗎

StackOverflow已經死亡了嗎 最近,一張有趣的圖片在X平台上引發了程序員社區的熱烈討論。用户@_devJNS將StackOverflow比作《忍者神龜》中的斯普林特大師,而ChatGPT、Claude、DeepSeek和Gemini則化身為新一代忍者。配文直擊靈魂:“StackOverflow官方已經死亡了嗎?”。這不僅是一句調侃,更折射出技術社區對這一經典問答平台的關注度下降和AI崛起

機器學習 , llm , 算法 , 人工智能

收藏 評論

Lab4AI - NeurIPS 2025|清華北大團隊開源VCA模塊,即插即用,讓視覺AI“抓重點”既快又準

論文標題:Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials 作者團隊:清華大學、北京大學 發佈時間:2025年11月4日 👉一鍵直達論文 [👉Lab4AI大模型實驗室論文閲讀]( https://www.lab4ai.cn/paper/detail/

機器學習 , llm , 算法 , 人工智能 , 深度學習

收藏 評論

Baihai_IDP - 為什麼語言模型偏愛使用破折號?反駁多種主流解釋,並提出猜想

編者按: 難道語言模型對破折號的偏愛,真的只是因為它們“喜歡”嗎? 我們今天為大家帶來的文章,作者的核心觀點是:當前主流大語言模型對破折號的偏愛,很可能源於其訓練數據中大量引入了 19 世紀末至 20 世紀初的紙質書籍 —— 這些文本本身就比當代英語更頻繁地使用破折號。 文章系統梳理並逐一反駁了多種主流解釋,然後通過分析標點使用的歷史趨勢、尼日利亞英語語料庫統計數據,以及 GPT-3.5

generative-ai , 觀點 , llm , 知識 , 人工智能

收藏 評論

雲端小夢 - 自學大語言模型的應用程序框架Langchain(初入門)

隨着大型語言模型技術的飛速發展,如何高效地構建基於這些強大模型的複雜、可交互的應用,成為了開發者的核心挑戰。LangChain應運而生,它不僅僅是一個簡單的 API 封裝,而是一個功能強大的開源框架,旨在簡化和加速 LLM 驅動的應用程序的開發。 思維導圖 一、LangChain 簡介 Lang

llm , API , 語言模型 , 後端開發 , langchain , 人工智能 , Python

收藏 評論

阿里雲大數據AI - 【新模型速遞】PAI-Model Gallery雲上一鍵部署MiniMax-M1模型

MiniMax-M1 模型是由 MiniMax 公司6月17日全新推出的大語言模型,使用hybrid Mixture-of-Experts (MoE) 架構,並使用了 lightning attention 機制。 MiniMax 公司稱其為世界上第一個開源的大規模混合架構的推理模型。 MiniMax-M1 模型原生支持 1 百萬個 token 的上下文長度, 並且 lightning atten

llm , 大數據處理 , 雲計算 , 人工智能 , 模型

收藏 評論

deephub - Pydantic-DeepAgents:基於 Pydantic-AI 的輕量級生產級 Agent 框架

DeepAgents的靈感源自 LangChain deepagents,但在設計上更做減法,它強調類型安全且內置了 Docker 沙箱 2025 年的Autonomous AI Agents早就不是實驗室裏的花架子了。在現實世界的自動化流程、代碼生成工具、數據管道以及各類智能助手中都能看到它們的身影。 現在的很多主流 Agent 框架越來越重。為了用上 Agent,你往往得引入一堆沉重的

llm , agent , 人工智能 , 深度學習

收藏 評論

GPUStack - GPUStack Windows(WSL2)部署指南

GPUStack v2 以高性能推理與生產級穩定性為核心演進方向,對整體架構進行了全面重構,實現了組件間的靈活解耦,並對多推理引擎和異構算力進行了深度優化,充分釋放推理引擎在吞吐、延遲與併發方面的性能潛力。 基於這一架構設計,GPUStack v2 聚焦 Linux 原生環境,以充分利用其在生態和 AI 基礎設施領域的成熟優勢。 對於 Windows 用户,推薦通過 WSL2(Windows Su

generative-ai , llm , 人工智能 , Docker

收藏 評論

慧星雲 - 製作一個3D建模只需10秒:騰訊發佈3D開源模型“混元3D”

混元3D模型 騰訊在科技領域投下一顆重磅炸彈,宣佈推出混元3D生成大模型“hunyuan3d-1.0”,這是業界首個同時支持文字、圖像生成3D的開源模型。它具有生成速度快、泛化能力強、可控性好等特點,直接引起了AI界眾人的關注。 混元3D-1.0 混元3D生成效果 Hunyuan3D-1.0是3D生成開源界首個同時支持文字、圖像轉3D的模型,效果達到SOTA級別。該模型採用兩階段生

llm , 雲平台 , 騰訊 , 雲計算 , 人工智能

收藏 評論

openFuyao - openFuyao 社區 2025 年 11 月運作報告

11月概述 2025年11月,openFuyao社區持續穩健發展,在技術、生態等方面均取得一些進展,展現出良好的技術創新力與蓬勃的社區活力。 技術演進方面,v25.12版本已完成社區特性導入,並進入主體開發階段。多項關鍵特性取得實質性進展:社區發行版支持超大規模集羣;社區支持大版本升級;K8s組件實現自定義簽發策略和K8s組件獨立kubeconfig;高性能AI推理服務化框架子系統構建和集成。

llm , 人工智能

收藏 評論

deephub - 向量搜索升級指南:FAISS 到 Qdrant 遷移方案與代碼實現

FAISS 在實驗階段確實好用,速度快、上手容易,notebook 裏跑起來很順手。但把它搬到生產環境還是有很多問題: 首先是元數據的問題,FAISS 索引只認向量,如果想按日期或其他條件篩選還需要自己另外搞一套查找系統。 其次它本質上是個庫而不是服務,讓如果想對外提供接口還得自己用 Flask 或 FastAPI 包一層。 最後最麻煩的是持久化,pod 一旦掛掉索引就沒了,除非提前手動存盤。 Q

llm , 向量 , 人工智能 , 檢索系統

收藏 評論

deephub - 自愈型RAG系統:從脆弱管道到閉環智能體的工程實踐

RAG系統在生產環境中有個老大難問題:脆弱。演示時用精心準備的問題去問,效果看起來很驚豔。但真正上線後,用户的問題五花八門,向量數據庫返回的文檔語義上相似但實際答非所問,LLM又特別喜歡討好,拿着一堆噪音數據照樣能編出一套看似合理的答案。 那麼問題出在哪呢?標準RAG是典型的開環架構:輸入 → 嵌入 → 檢索 → 生成,一條線走到底。每個環節都假設上游輸出是完美的,一旦某步出錯,錯誤就會一路傳導到

llm , 教程 , 人工智能 , Python

收藏 評論

deephub - ReSearch:基於強化學習的大語言模型推理搜索框架

ReSearch是一種創新性框架,通過強化學習技術訓練大語言模型執行"推理搜索",無需依賴推理步驟的監督數據。該方法將搜索操作視為推理鏈的有機組成部分,其中搜索的時機與方式由基於文本的推理過程決定,而搜索結果進一步引導後續推理。研究分析表明,ReSearch在強化學習訓練過程中自然地形成了高級推理能力,包括反思與自我糾正機制。 技術方法 ReSearch的訓練架構概述 與傳統的僅包含文本推理的推

llm , 搜索 , 人工智能 , 深度學習

收藏 評論

KAI智習 - 大模型榜單週報(2026-01-04)

1. 本週概覽 DeepSeek在市佔率方面表現突出,份額增加顯著。同時,通義實驗室開源了GUI智能體MAI-UI,涵蓋從端側小模型到雲端大模型的多個尺寸版本。此外,DeepSeek提出了名為「mHC(流形約束超連接)」的新架構,能夠在增加極少訓練時間開銷的情況下實現顯著性能提升。 2. 重點關注事件 通義實驗室於12月26日開源GUI智能體MAI-UI,提供從2B端側小模型到235B雲端大模

llm , 人工智能

收藏 評論

openFuyao - openFuyao信息直升機 | 第5期:一文了解“高性能AI推理服務化框架”

業務痛點: AI推理是AI領域中將大模型轉化為應用效果與商業價值的核心技術,但在實際生產部署中仍然面臨着多樣化算力場景下的效率低與可部署性成本高,高併發、長上下文LLM推理場景中的性能和資源利用率瓶頸。 根因分析: 用户體驗與資源效率瓶頸:當前長上下文LLM推理的首Token延時普遍在數百毫秒至秒級,且長上下文場景下KV緩存顯存佔用呈線性增長,嚴重製約Agent的響應效率與部署規模;傳統靜態批

llm , 人工智能 , 開源項目介紹

收藏 評論

火雲大軍 - 本地大模型編程實戰(39)MCP實戰演練

之前兩篇文章:MCP簡介和MCP能做什麼闡述了MCP的基本概念和原理。 本文將使用Visual Studio Code寫一個MCP服務端和MCP客户端,演示MCP的基本功能。 MCP版本迭代很快,能用把代碼順利跑起來並不是一件容易的事:) 準備運行環境 Windows 10 Visual studio code 1.104.3

llm , 私藏項目實操分享 , mcp , 人工智能 , 深度學習 , Python

收藏 評論

OpenBayes - OpenBayes 一週速覽丨李沐團隊開源語音大模型Higgs Audio V2,擴展多語言對話等功能

公共資源速遞This Weekly Snapshots ! 5 個公共數據集: B3DB 生物基準數據集 PolyMath 數學推理數據集 SongEval 音樂評估數據集 MegaScience 科學推理數據集 WebInstruct-verified 多領域推理數據集 4 個公共模型: gpt-oss-20b gpt-oss-120b Qwen3-30B-A3B-Inst

llm , 圖像識別 , 數學 , 自然語言處理 , chatgpt

收藏 評論

KAI智習 - 大模型榜單週報(2025/12/27)

1. 本週概覽 本週大模型領域持續涌現創新成果,數學、編程和多模態能力均出現顯著進展。字節推出數學模型Seed Prover 1.5,在國際數學奧林匹克競賽中取得金牌線成績,而智譜AI開源GLM-4.7在多項評測中超越GPT-5.1。MiniMax的M2.1編碼模型以10B激活參數創下多語言軟件工程能力新高,北航提出的代碼模型Scaling Laws為最優數據配比提供理論基礎。 2. 重點關注事件

llm , 人工智能

收藏 評論