OpenBayes 一週速覽丨李沐團隊開源語音大模型Higgs Audio V2，擴展多語言對話等功能詳情 - llm,數學,圖像識別,自然語言處理,chatgpt OpenBayes 博客

公共資源速遞 This Weekly Snapshots ！

5 個公共數據集：

B3DB 生物基準數據集
PolyMath 數學推理數據集
SongEval 音樂評估數據集
MegaScience 科學推理數據集
WebInstruct-verified 多領域推理數據集

4 個公共模型：

gpt-oss-20b
gpt-oss-120b
Qwen3-30B-A3B-Instruct-2507
Qwen3-Coder-30B-A3B-Instruct

14 個公共教程：

視頻處理 * 2

音頻生成 * 2

AI4S * 3

圖像生成 * 3

大模型部署 * 4

訪問官網立即使用：openbayes.com

公共數據集

B3DB 生物基準數據集

B3DB 數據集包含 8,865 個獨立有機小分子數據，其中 1,058 條數據附有連續型 logBB（腦/血濃度比的對數），可直接用於迴歸建模。其餘 7,807 條數據以 logBB≥−1 為統一閾值，被標記為 4,956 個 BBB+（可通透）和 2,851 個 BBB−（不可通透），用於分類任務。

在線使用：

https://go.openbayes.com/8IBmE

PolyMath 數學推理數據集

PolyMath 數據集包含 500 道高質量的數學推理問題，且每種語言有 125 個問題。其使用了思維深度和知識廣度 2 個核心維度，定義並劃分數學難度，跨越 4 個級別，從 K-12 到奧林匹克競賽和高等前沿數學。

在線使用：

https://go.openbayes.com/SQYsa

數據集語種分佈

SongEval 音樂評估數據集

SongEval 數據集包含 2,399 首歌曲（含人聲和伴奏），由 16 位專家評分者在 5 個感知維度（整體連貫性、記憶性、發聲呼吸和樂句的自然性、歌曲結構的清晰度、整體音樂性）上進行了註釋，涵蓋約 140 小時的高品質音頻，包含中英文歌曲及 9 種主流流派。

在線使用：

https://go.openbayes.com/za7ZH

數據集結構圖

MegaScience 科學推理數據集

MegaScience 數據集包含 125 萬實例，旨在支持自然語言處理（NLP）和機器學習模型，特別是在科研領域的文獻檢索、信息提取、自動摘要和引用分析等任務。

在線使用：

https://go.openbayes.com/1Ldii

數據集結構圖

WebInstruct-verified 多領域推理數據集

WebInstruct-verified 數據集包含約 23 萬道推理問題，涵蓋多種答案格式，包括選擇題、數值表達式數據集的均衡領域分佈。該數據集主要涵蓋了數學、物理、化學、金融等學科，以及其他各種人文和社會科學領域。

在線使用：

https://go.openbayes.com/slsTR

數據集領域分佈

公共模型

1.gpt-oss-20b

發佈機構：OpenAI

GPT-OSS-20b 參數約為 210 億，運行時僅需 16GB 內存，在常見基準測試裏，其表現與 o3-mini 相當，這種輕量化設計使得它在邊緣設備上也能輕鬆部署，無論是在本地推理，還是在對基礎設施要求嚴苛的快速迭代場景中，都能發揮出色的效能。

在線使用：

https://go.openbayes.com/zpBxD

2.gpt-oss-120b

發佈機構：OpenAI

GPT-OSS-120b 擁有約 1170 億參數，在核心推理基準測試中，其推理性能與 OpenAI 自家的 o4-mini 不相上下，且每個 token 僅啓用 51 億參數，便能在單個 80GB GPU 上實現高效運行，這一成果極大地優化了計算資源的利用效率。

在線使用：

https://go.openbayes.com/Q8bBk

3.Qwen3-30B-A3B-Instruct-2507

發佈機構：阿里通義千問

Qwen3-30B-A3B-Instruct-2507 採用 128 專家、8 激活專家的 MoE 架構，並通過 GQA 把鍵值頭壓縮到 4 個，使得原生上下文長度可擴展至 256 K token，能夠一次性處理超長文檔而幾乎不丟失信息。在公開基準測試中，該模型在代碼、數學、多語言理解與指令遵循等任務上已追平或超越 Gemini-2.5-Flash 非思考版以及 GPT-4o 等閉源對手，而激活參數規模卻僅為它們的十分之一左右。

在線使用：

https://go.openbayes.com/ZvJ8R

4.Qwen3-Coder-30B-A3B-Instruct

發佈機構：阿里通義千問

Qwen3-Coder-30B-A3B-Instruct（Flash）採用 128×8 的稀疏專家結構，推理時只激活 3.3B 參數，卻能在多項代碼任務上逼近甚至超越完整 30B 級別的稠密模型，因此被社區稱為「甜品級」編程助手——一塊 GeForce RTX 4090 就能跑滿 6-bit 量化版，顯存佔用不到 14 GB。為了應對倉庫級開發場景，模型原生支持 256 K token 上下文，並通過 YaRN 技術平滑擴展到 1 M token，這意味着整份百萬級代碼庫可以一次性喂進顯存，無需切片或檢索。

在線使用：

https://go.openbayes.com/vOGml

公共教程

視頻處理 * 2

1.LiveCC：實時視頻解説大模型

LiveCC 是一個專注於大規模流式語音轉錄的視頻大語言模型項目，該項目旨在通過創新的視頻 - 自動語音識別（ASR）流式方法訓練出首個具備實時評論能力的視頻大語言模型，在流式和離線基準測試中均達到了當前最優（SOTA）水平。

在線運行：

https://go.openbayes.com/jh1Ur

項目示例

2. Wan2.2：開放式高級大規模視頻生成模型

Wan-2.2 模型首次引入混合專家（MoE）架構，有效提升生成質量和計算效率，同時首創電影級美學控制系統，能精準控制光影、色彩、構圖等美學效果。教程使用的 5B 參數緊湊視頻生成模型，支持文本和圖像生成視頻，能在消費級顯卡上運行，基於高效的 3D VAE 架構，實現高壓縮率和快速生成高清視頻的能力。

在線運行：

https://go.openbayes.com/XjjsP

項目示例

音頻生成 * 2

MOSS：文本到口語對話生成

MOSS-TTSD 能夠將兩位説話者之間的對話腳本轉換為自然、富有表現力的對話語音。該模型支持語音克隆和長單段語音生成，使其成為 AI 播客製作的理想選擇。

在線運行：

https://go.openbayes.com/EgJz8

項目示例

Higgs Audio v2：重新定義語音生成的表達能力

Higgs Audio V2 在 Seed-TTS Eval 和 Emotional Speech Dataset（ESD）等傳統 TTS 基準測試中獲得了最先進的性能。此外，該模型還展示了以前系統中很少見的功能，包括旁白時的自動韻律適應、多語言自然多説話者對話的零樣本生成、克隆聲音的旋律哼唱以及同時生成語音和背景音樂。

在線運行：

https://go.openbayes.com/iuFdI

項目示例

AI4S * 3

1. Aeneas 模型：古羅馬銘文修復 Demo

Aeneas 用於拉丁與古希臘銘文的文本修復、地理歸因與年代歸因。該模型基於多模態 Transformer 解碼器（torso）+ 任務專用 heads 的混合架構，可在字符級分辨率下同時處理文本與圖像，實現長上下文、任意長度殘損銘文的修復與歸因，計算與內存效率隨上下文長度線性擴展。該模型的發佈標誌着數字碑銘學進入全新時代，其在古代文本修復、地理/時間歸因、歷史研究輔助等領域的潛力巨大，有望加速科學發現與跨學科應用，為歷史學家與數字人文研究者提供了可解釋、可量化的銘文分析工具。

在線運行：

https://go.openbayes.com/rcdwQ

項目示例

2. 內外向人格預測：從數據洞察到穩健集成全流程

Introvert Extrovert EDA Ensemble RSKF 圍繞一個「區分內向-外向人格」的二元分類賽題展開，完整呈現了從數據探索到模型集成、再到穩健驗證的端到端流程。作者首先對原始數據集進行了細緻的探索性數據分析（EDA），揭示了兩類人羣在答題模式、行為特徵上的差異；隨後構建了一套基於 Repeated Stratified K-Fold（RSKF）的集成學習框架，將多個基模型（XGBoost、LightGBM、CatBoost 等）的預測結果通過投票或加權平均的方式融合，以減小方差、提高穩健性。

在線運行：

https://go.openbayes.com/BsI3z

3. MediCLIP：採用 CLIP 進行小樣本醫學圖像異常檢測

MediCLIP 僅需極少數正常醫學圖像即可展現出頂尖的異常檢測性能。該模型集成了可學習的提示、適配器以及逼真的醫學圖像異常合成任務。

在線運行：

https://go.openbayes.com/Jl2HU

項目示例

圖像生成 * 3

Ovis-U1-3B：多模態理解與生成模型

Ovis-U1-3B 模型集成多模態理解、文本到圖像生成和圖像編輯三種核心能力，基於先進的架構和協同統一訓練方式，實現高保真圖像合成和高效的文本視覺交互。在多模態理解、生成和編輯等多個學術基準測試中，Ovis-U1 均取得領先的成績，展現出強大的泛化能力和出色的性能表現。

在線運行：

https://go.openbayes.com/z65Rx

項目示例

2. Qwen-lmage：具有高級文本渲染能力的圖像模型

Qwen-Image 模型在文本渲染領域實現突破，支持中英雙語多行段落級高保真輸出，對複雜場景與毫米級細節均具備精準還原能力。該模型通過多任務協同訓練範式，在圖像編輯中實現像素級一致性，確保主體、光影、紋理全程零漂移。可一鍵生成寫實、動漫、賽博朋克、科幻、極簡、復古、超現實、水墨等數十種風格，並支持風格遷移、元素增刪、細節增強、文字重繪、姿態重設等全維度精細操作。

在線運行：

https://go.openbayes.com/JCmE3

項目示例

3. Neta Lumina：高品質二次元風格圖像生成模型

Neta Lumina 基於上海人工智能實驗室 Alpha-VLLM 團隊開源的 Lumina-Image-2.0，利用海量、高質量的二次元風格圖像及多語種標籤數據，使模型具備強大的需求理解與詮釋能力，非常適合插畫、海報、分鏡、角色設計等場景。

在線運行：

https://go.openbayes.com/lF3h1

項目示例

大模型部署 * 4

1. 一鍵部署 Qwen3-30B-A3B-Instruct-2507

Qwen3-30B-A3B-Instruct-2507 是 Qwen3-30B-A3B 的非思考模式的更新版本。它的亮點在於僅激活 30 億（3B）參數就能展現出與谷歌的 Gemini 2.5-Flash（非思考模式）和 OpenAI 的 GPT-4o 相媲美的超強實力，這標誌着在模型效率和性能優化上的一次重大突破。

在線運行：

https://go.openbayes.com/h3EEI

項目示例

2. 一鍵部署 Qwen3-Coder-30B-A3B-Instruct

Qwen3-Coder-30B-A3B-Instruct 在代理編碼、代理瀏覽器使用和其他基礎編碼任務上的開放模型中具有顯着的性能。能夠高效地處理多種編程語言的編碼任務。其強大的上下文理解和邏輯推理能力使其在複雜項目開發和代碼優化中表現出色。

在線運行：

https://go.openbayes.com/YKTDS

項目示例

3. 使用 vLLM + Open WebUl部署 EXAONE-4.0-32B

EXAONE-4.0 模型融合通用自然語言處理能力與經 EXAONE Deep 驗證的高級推理能力，在數學、科學及編程等高難度領域實現突破。該模型支持 MCP 與函數調用功能，為 Agentic AI 提供技術基礎，其發佈的 32B 專業模型，已通過六項國家專業證照筆試，其全球最新高難度基準測試成績如下：知識推理：MMLU-Pro 81.8 分，編程能力：LiveCodeBench v6 66.7 分，科學素養：GPQA-Diamond 75.4 分，數學能力：AIME 2025 85.3 分。

在線運行：

https://go.openbayes.com/coLcJ

項目示例

4. DiffuCode-7B-cpGRPO：基於掩碼擴散技術的代碼生成模型

DiffuCoder-7B-cpGRPO 旨在通過迭代式降噪的方式進行代碼的生成與編輯，而非傳統的從左到右的自迴歸（Autoregressive）生成。DiffuCoder-7B-cpGRPO 的一個顯著特點是它不嚴格依賴從左到右的生成方式來生成代碼，這使得它在主流編程跑分測試中，相較於其他基於擴散的編程模型，得分提高了 4.4%。這種非順序性的代碼生成能力，使其在代碼編輯和生成任務中展現出更高的靈活性和效率。

在線運行：

https://go.openbayes.com/fjzWv

項目示例

OpenBayes 博客

OpenBayes 博客

博客 / 詳情