[論文筆記•(多智能體)]LLMs Can Simulate Standardized Patients via Agent Coevolution
一、一句話總結
該研究針對標準化病人(SPs)訓練醫療人員成本高、對 SP 身心健康有潛在負面影響的問題,提出EvoPatient 框架—— 一種基於多智能體協同進化的虛擬 SP 模擬方案,通過病人智能體與醫生智能體的多輪對話模擬診斷流程(含主訴生成、分診、問診、結論階段),依託注意力庫和軌跡庫實現無監督協同進化,在僅提供 SP 總體需求的情況下,經 200 個病例、10 小時進化後,需求對齊度較現有推理方法提升超 10%,同時優化資源消耗(平均響應時間 6.6922 秒、每答案 token 數 401.5882),還具備優異的泛化性(跨疾病遷移時相關指標平均提升 3.8%-18.1%),可有效用於人類醫生訓練,框架代碼將開源於https://github.com/ZJUMAI/EvoPatient。
二、論文基本信息
單位:浙江大學
會議:ACL2025 main
閲讀時間:2025.10.27
論文地址:LLMs Can Simulate Standardized Patients via Agent Coevolution - ACL Anthology
**代碼:**https://github.com/ZJUMAI/EvoPatient
測試
三、研究的核心問題和背景
- 標準化病人(SPs)的作用與侷限
- 作用:作為經專業訓練的人員,模擬真實病人的症狀、病史和情緒狀態,在可控環境中提升醫療人員的臨牀技能、溝通能力和診斷推理能力(引用 Barrows, 1993 等研究)。
- 侷限:① 訓練和運營成本極高,需大量醫學知識和角色專項練習(Levine et al., 2013);② 沉浸式工作可能對 SP 身心健康產生負面影響,如需應對角色相關焦慮(Spencer and Dales, 2006)。
- 現有虛擬 SP 方案的不足
- 規則驅動數字病人:預定義規則和定製對話框架無法捕捉真實病人病情與溝通的複雜性(Othlinghaus-Wulhorst and Hoppe, 2020)。
- LLM-based SP:① 需兼顧 “具備醫學知識” 與 “模擬無醫學認知病人(隱瞞關鍵信息)” 的雙重角色,僅靠提示工程難以滿足要求;② 現有研究(如 Yu et al., 2024 的知識圖譜檢索、Louie et al., 2024 的專家反饋)未克服 “將信息轉化為 SP 標準化表達” 問題,且存在人力密集、泛化性有限的問題。
四、現有方法面臨的挑戰
五、處理思路
EvoPatient 是無監督、無需權重更新的多智能體協同進化框架,核心目標是讓 LLM 模擬 SP 以支撐醫生訓練。
六、框架及具體達成
模擬流程(Simulated Flow)
- 作用:以真實醫療記錄為輸入,將診斷過程建模為結構化階段,作為模擬工作流,支持場景定製且無需調整通信協議。
- 關鍵階段:
|
階段
|
核心內容
|
|
主訴生成(Chief Complaint Generation)
|
病人智能體基於醫療記錄生成主訴,通過 “模糊化處理”(移除醫療檢測結果、隨機句子 dropout)模擬真實病人信息不精確性
|
|
分診(Triage)
|
醫生智能體根據相似主訴從庫中檢索歷史分診數據,將病人分配至對應專科
|
|
問診(Interrogation)
|
醫生與病人智能體多輪對話,若病情超當前醫生專業範圍,可招募其他專科醫生,此階段對話密度高、經驗積累多
|
|
結論(Conclusion)
|
醫生智能體整合信息給出最終診斷,結束模擬
|
- 補充機制:問診階段加入 “病人危機”(如突發疼痛詢問),提升模擬真實性,訓練醫生應急處理能力。
模擬智能體對(Simulated Agent Pair)
- 病人智能體(Simulated Patient Agent)
- 畫像設計:構建5000 個涵蓋家庭、教育、經濟狀況及大五人格特質(McCrae and Costa, 1987)的病人畫像,提升回答真實性。
- 技術支撐:採用檢索增強生成(RAG)技術(Lewis et al., 2020),從記錄中提取相關信息生成答案,避免長上下文信息丟失。
- 醫生智能體(Simulated Doctor Agent)
- 疑問生成優化:① 提供病人記錄和設計畫像,引導醫生構建專業疑問庫;② 幫助多學科諮詢招募,當病情超專業範圍時,可動態招募其他專科醫生,招募過程遵循拓撲排序形成有向無環圖(DAG),避免信息迴流。
- 記憶機制:採用 “即時記憶 + 總結記憶”,前者維持近期對話連續性,後者整合關鍵信息,減輕上下文負擔(Liu et al., 2024),確保障礙非隨意生成。
協同進化機制(Coevolution)
通過兩個庫實現智能體自主進化,無需人工監督:
- 注意力庫(Attention Library)
- 功能:將 SP 需求拆分為多個分支,由注意力智能體提取關鍵需求形成 “注意力需求(rₐ)”,若生成答案優質,以 < 挑戰,記錄,答案,注意力需求 > 四元組存儲,作為病人智能體的少樣本演示和優化需求。
- 檢索邏輯:新問題到來時,通過文本嵌入器計算相似度(閾值 0.9),檢索 Top-k 匹配結果輔助回答。
- 軌跡庫(Trajectories Library)
- 功能:存儲高質量對話軌跡(tᵢ),以(qⱼ₋₁,aⱼ₋₁,qⱼ,aⱼ)形式記錄問題 - 答案序列,醫生智能體可提取 “對話捷徑”,生成更專業高效的問題,反哺病人智能體進化。
- 收斂條件:連續 6 個病例無新內容加入庫中,進化停止。
七、實驗
3.3.1 實驗基礎信息
- 數據集:共20000 + 個不同病例,涵蓋闌尾炎、鼻咽癌、腫瘤等,來源包括:① 合作醫院的去標識化記錄(經倫理審批);② 公開數據集 MTSamples(2023)、MIMIC II(Saeed et al., 2011)。
- 基線方法:Chain-of-Thought(CoT)、CoT-SC(3)、Tree-of-Thought(ToT)、Self-Align、Few-shot(2)、Online Library。
- 模型與參數:中文數據用 Qwen 2.5 72B,英文數據用 GPT-3.5-Turbo,温度參數 1;默認訓練病例 200 個,最大對話輪次 10,每輪插入 5 個欺騙性問題。
- 評估指標:
|
評估對象
|
指標名稱
|
指標定義
|
取值範圍
|
|
病人答案
|
相關性(α)
|
否直接完整回答障礙、無冗餘,用挑戰與答案語義嵌入的餘弦距離量化就是答案
|
[0,1]
|
|
病人答案
|
忠實性(β)
|
答案是否可從醫療信息推導且符合 SP 需求
|
[0,1]
|
|
病人答案
|
穩健性(γ)
|
答案是否泄露醫生不應輕易獲取的信息(如疾病名稱)
|
[0,1]
|
|
病人答案
|
綜合能力(Ability)
|
(α+β+γ)/3,衡量病人智能體整體表現
|
[0,1]
|
|
醫生問題
|
特異性
|
問題是否精準、聚焦病人病例的特定症狀 / 情況
|
-
|
|
醫生問題
|
針對性(ε)
|
問題是否為收集診斷必要信息而設計
|
[0,1]
|
|
醫生問題
|
專業性(ζ)
|
問題是否體現醫學原理與實踐理解
|
[0,1]
|
|
醫生問題
|
綜合質量(Quality)
|
整合特異性、針對性、專業性的整體指標
|
-
|
3.3.2 核心實驗結果
- 總體性能對比:EvoPatient 在所有指標上顯著優於基線,具體信息如下表(部分關鍵指標):
|
方法
|
相關性(α)
|
忠實性(β)
|
穩健性(γ)
|
綜合能力(Ability)
|
|
CoT
|
0.7157†
|
0.5571†
|
0.6714†
|
0.6481†
|
|
ToT
|
0.7469†
|
0.7143†
|
0.7714†
|
0.7442†
|
|
Self-Align
|
0.7205†
|
0.7273†
|
0.8148†
|
0.7542†
|
|
Few-shot(2)
|
0.7252†
|
0.7419†
|
0.8207†
|
0.7626†
|
|
EvoPatient
|
0.7589
|
0.8786
|
0.9412
|
0.8597
|
|
注:†表示與 EvoPatient 存在顯著統計差異(p≤0.05) |
- 資源消耗優化:EvoPatient 在響應時間、token 數、單詞數上均體現高效性,具體如下表:
|
方法
|
平均響應時間(秒)
|
每答案 token 數
|
每答案單詞數
|
|
CoT
|
4.7500
|
782.0571
|
45.7429
|
|
ToT
|
21.7040
|
2679.3428
|
38.9143
|
|
Few-shot(2)
|
4.7182
|
959.4355
|
35.6334
|
|
EvoPatient
|
6.6922
|
401.5882
|
32.2432
|
|
注:EvoPatient 較 CoT 減少 380.4689 個 token,減少 13.4997 個單詞 |
- 泛化性與遷移性:在鼻咽癌 100 個病例上訓練後,直接遷移到其他 5 種疾病,相關指標平均提升:
- 相關性:3.8%
- 忠實性:13.8%
- 穩健性:18.1%
- 綜合質量:12.0%
- 信息泄露緩解:進化前病人智能體易泄露疾病名稱等關鍵信息(如回答 “我的鼻咽癌復發”),進化後可有用識別並拒絕欺騙性問題,在人類和 GPT-4 評估中,偏好率顯著高於基線。
3.3.3 醫生智能體專項分析
- 組件有效性:醫生智能體的 “進化機制”“問題庫”“畫像” 三大組件均對性能有正向貢獻,組合後綜合質量從 0.4010 提升至 0.5667,問診相關挑戰佔比從 14.09% 提升至 25.57%。
- 招募策略影響:DAG 結構的招募策略優於樹狀、鏈式結構,平衡庫的積累速度與數量;多學科招募使難題多樣性提升,同時保證專業性,注意力庫積累率顯著提高。
,組合後綜合質量從 0.4010 提升至 0.5667,問診相關障礙佔比從 14.09% 提升至 25.57%。 - 招募策略影響:DAG 結構的招募策略優於樹狀、鏈式結構,平衡庫的積累速度與數量;多學科招募使困難多樣性提升,同時保證專業性,注意力庫積累率顯著提高。