一句話講:作者提出了一種名為“感知歧義性對齊”(APA)的新型對齊流程,旨在通過利用模型自身的內在知識,增強 LLM 處理 query 中歧義性問題的能力。該方法採用隱式信息增益指標來量化模型自身感知到的模糊性,使模型能夠基於該指標通過對齊操作有效管理歧義/非歧義查詢。
論文精讀
不管是人跟人之間還是人跟 LLM 之間,溝通的時候其實經常會使用省略表達(省略詞語或短語)或不精確表達(缺乏確切性),這可能導致基於不同假設或背景知識的人/LLM,對同樣的輸入產生不同的解讀。因此,LLM 必須熟練處理查詢中固有的模糊性以確保可靠性。
然而,即便是最先進的 LLM,在處理此類場景時仍面臨挑戰,主要源於以下障礙:
- LLM未被明確訓練處理模糊性話語;
- LLM感知的模糊程度可能因知識儲備不同而存在差異。
為解決這些問題,作者提出感知模糊性對齊(Alignment with Perceived Ambiguity, APA)方案——通過利用模型自身對模糊性的評估能力,建立 LLM 處理模糊查詢的新型流程。
引言
歧義指的是某個表達可能具有多重含義的情況,用户可能帶着明確的意圖提出請求,但是由於領域知識不足或表達時疏漏,導致請求本身存在歧義。如果模型對這類歧義做出武斷迴應,就可能誤讀用户的真實意圖,進而影響模型的可靠性。這種情況在需要高度可靠性的領域尤為明顯,比如法律和醫療領域,誤判可能導致嚴重後果。儘管歧義管理至關重要,但目前針對歧義進行穩健處理的解決方案仍存在顯著研究空白。
正確處理模糊輸入面臨兩大主要挑戰:
- 模型並未被訓練去顯式表達模糊性。即便模型具備識別模糊性的能力,也需要通過其自身發出的明確線索(如表達不確定性或提供多種解釋)來確認這種識別。
- 模型感知到的模糊程度會因其知識儲備而異。以下圖所示場景為例:初始查詢“全國錦標賽”具有多重含義,可能指“全國網球錦標賽”或“全國高爾夫錦標賽”。若模型掌握所有可能含義的全面知識,就能識別出查詢的模糊性(圖1左)。但若知識儲備有限,模型就會誤判為明確查詢(圖1右)。因此,模型如何解讀模糊性取決於其知識範圍,我們將其定義為感知模糊性。
為解決這些問題,作者提出感知模糊性對齊(APA)方法,通過利用查詢的感知模糊性,使模型能夠顯式處理模糊查詢。具體而言,作者設計了一個代理任務,引導模型利用其內在知識對給定查詢進行自消歧。隨後,將消歧過程中獲得的信息量化為模型感知輸入模糊程度的隱性指標。對於選定的模糊查詢及其消歧結果,模型會生成針對模糊性的澄清請求。最終,模型通過訓練能夠對模糊查詢作出顯式澄清請求。
此外,作者提出了三個數據集,為評估歧義問題構建了完整框架:歧義問答數據集(AmbigTriviaQA)、歧義網絡問答數據集(AmbigWebQuestions)和歧義自由數據庫問答數據集(AmbigFreebaseQA)。
作者的貢獻可歸納為以下三點:
- 提出感知歧義對齊(APA)方法,使 LLM 能夠通過感知歧義來顯式處理模糊輸入。
- 引入三個全新數據集——歧義問答數據集、歧義網絡問答數據集和歧義自由數據庫問答數據集,專門用於評估模型處理歧義的能力。
- 通過在多個問答數據集上的實證驗證,證明 APA 方法能使模型有效處理歧義查詢。
方法
作者提出的感知模糊性對齊(APA)是一個四階段的對齊管道,如下圖所示:
在此研究中,作者關注的是開放領域問答任務,模型 需要根據預定義的推理模板
生成一個對無歧義查詢
的預測
,
與真實標籤
進行比較,然後被分類為 3️⃣-正確預測、4️⃣-錯誤預測和5️⃣-錯誤澄清請求。針對含歧義的輸入查詢,模型的預測
應該作為澄清請求
以解決歧義。這種方法基於一個核心假設:用户最適合闡明自身意圖。若
構成有效的澄清請求,則被視為1️⃣-正確,反之如果未能解決歧義的迴應將被判定為2️⃣-錯誤。對齊的最終目標是在保持或提升3️⃣的同時,增加1️⃣的數量。
初始預測評估
初始階段側重於識別模型當前無法處理的樣本。通過將明確查詢的預測結果 與真實標籤
進行匹配,並將模糊查詢的預測結果
與澄清請求
進行匹配,從而評估其正確性。共收集n個正確樣本(屬1️⃣和3️⃣類別),構建為正確數據集
。而被歸類2️⃣、4️⃣、5️⃣的錯誤樣本則統一歸入獨立數據集
。
感知模糊檢測
本階段旨在從錯誤數據集 中識別模型認為存在歧義的樣本。鑑於模型難以直接顯式表達歧義認知,作者構建了一個代理任務來估算模型視角下的歧義程度。具體而言,作者要求模型對給定查詢
進行自消歧處理,並生成消歧後的查詢
。在此過程中,模型會利用其與
相關的內部知識來補充生成更詳盡的細節。若原始查詢
存在定義不完整的情況,且模型恰好具備彌補所需的相關知識,則從模型視角來看,
將產生更高的確定性。反之,若
本身無需具體化説明,或模型缺乏必要知識,則
會表現出與
相似的不確定性水平。為量化
與
形式上,輸出分佈的熵定義為:,其中
定義為句子
中第
個 token
在完整的詞表
中出現的概率。句子
的平均熵可定義為:
,
表示句子的 token 數。
作者通過平均熵的差異量化 獲得的額外信息,我們將其定義為信息增益(infogain):
。
若 能產生具有實際意義的細化表述,將帶來顯著的信息增益(InfoGAIN),這表明模型認為原始查詢
存在歧義。無論真實歧義程度如何,當信息增益量超過閾值
時,該樣本即被歸類為歧義樣本,記為
。
構造回覆
在這個階段,作者定義了 ,它代表模型應針對模糊查詢生成的澄清請求。作者探索了兩種響應生成方法:
- 固定響應:使用預定義的澄清請求作為
的
。具體來説,預先定義了一組澄清請求列表,然後隨機選擇一個作為每個實例的
。
- 生成響應:模型被提示生成一個澄清請求,指明模糊性的來源。為此,作者向模型提供
和
,以識別導致模糊性的因素,從而生成針對該因素的特定
。
SFT 數據集
本階段旨在構建用於模型對齊的數據集。作者對識別出的 個歧義樣本進行標註,構建歧義數據集
,其中
作為真實標籤。為避免模型丟失已有知識,同時引入
參與訓練。通過平衡兩個數據集的樣本量使得
,最終建立訓練數據集
。利用數據集
,模型通過相同的推理模板
進行訓練,學習對
生成
,對
生成
。參數為
的模型
通過以下目標函數進行訓練:
根據 類型的不同,作者訓練了兩個版本的APA:
使用固定回覆模板,而
實驗
數據集
模型在訓練域內的表現能力至關重要。然而,為了實際應用,模型必須能夠泛化到分佈外(OOD)查詢,因為實踐中經常遇到與訓練數據不同的查詢。因此,作者使用 AmbigQA 作為訓練和驗證的域內數據集。該數據集包含模糊和明確的查詢,其中明確查詢帶有真實答案標籤。SituatedQA 被用作 OOD 測試數據集,分為兩個不同的部分,分別稱為 SituatedQA-Geo 和 SituatedQA-Temp,分別關注地理和時間上的模糊性。為了進一步評估不同問答領域的模糊性,作者構建了三個額外的數據集:AmbigTriviaQA、AmbigWebQuestions和AmbigFreebaseQA,分別源自TriviaQA、WebQuestions 和 FreebaseQA。作者採用 gpt-4o 對原始數據集中的初始查詢進行模糊化處理,並驗證生成結果。為了減輕驗證過程中可能存在的偏差,作者進一步由人工標註者評估驗證樣本,並選擇樣本用於最終數據集。
Baselines
為評估本方法的有效性,作者引入兩組 baselines:純推理方法與訓練方法。
- 僅推理方法:通過採用不同的提示策略來解決歧義問題。以直接提示(direct)作為基礎基準,使用簡單的問答提示進行測試。此外,作者還探索了歧義感知提示(ambig-aware),該方法通過添加處理歧義輸入的額外指令來增強效果。同時,作者通過測量採樣生成結果的一致性,對樣本重複(sample REP)方法進行了驗證。最後,作者對比了SELF-ASK方法,該方法在模型生成答案後,會根據生成結果自動判定歧義程度。
- 訓練方法:由於缺乏可直接比較的前期研究,作者將APA與經過微調的基線模型進行對比,這些基線模型均使用領域內訓練集進行訓練。作者比較了應用完整訓練集的 FULL-SET 方法。此外,作者還比較了兩種利用與 APA 相同數量訓練樣本的變體:subset_rand 採用隨機選取的子集進行訓練,該子集中包含等量的模糊樣本和明確樣本;subset_ent 則以模型對模糊查詢預測的熵值作為不確定性度量。前者選擇具有最高熵值的模糊樣本,後者則隨機選取明確樣本。
評估指標
成功的對齊應 保持模型處理明確輸入的能力,同時有效管理模糊查詢。
作者定義了兩個不同的指標來量化此能力:
- 無歧義預測(
):該模型需對無歧義查詢生成準確答案,同時儘量減少對歧義查詢的任意響應。為衡量此指標,作者採用無歧義預測F1值,其計算方式為:對歧義查詢的精確率
與召回率
- 歧義性檢測 (
):當輸入信息存在歧義時,模型應能識別並生成相應的澄清請求。然而,模型可能對澄清請求存在預測偏差。基於這些考量,作者採用F1分數評估模型的模糊性檢測能力,該指標同時反映精確率
和召回率
實現細節
本實驗採用LLAMA2 7B和13B以及mistral 7B模型,並使用QLoRA進行高效訓練,結果取三個不同隨機種子的平均值。
實驗結果
僅推理方法在處理歧義查詢時存在顯著侷限性。 direct方法無法有效處理歧義查詢,其持續為零的 分數即為明證。 ambiga-ware 和 sample REP 方法對澄清請求表現出明顯偏好,導致
指標不足。SELF-ASK方法的
與僅推理方法相比,訓練方法展現出更優的性能表現。 具體而言,與僅使用參考數據的方法相比,subsetrand 在兩項指標上均展現出更優的性能。FULL-SET方法通過利用完整訓練集,在所有基準方法中表現最為突出。值得注意的是,subsetent不僅大幅超越subsetrand,甚至在某些數據集上超越了FULL-SET。subsetent的實驗結果表明,熵值能夠有效捕捉數據的模糊性特徵,這種特性使其在比對過程中具有顯著優勢。
APA在所有數據集上都表現出色。 儘管採用了相同的推理模板,APA 在 上相比 direct 方法有了顯著提升。考慮到 APA 是在
數據集上訓練的,而該數據集包含模型已經能夠處理的樣本,這一改進尤其令人驚訝。此外,APA 在所有數據集的
上都持續表現優異,最高提升了6分。這些結果突顯了利用感知模糊性進行對齊的有效性,增強了泛化能力和魯棒性。與subsetent相比,APA 的改進表明信息增益比熵提供了更好的模糊性量化。僅利用感知模糊的數據(在LLAMA2家族中約佔32%,在mistral中約佔13%)的效能再次強調了數據質量而非數量的重要性。此外,APA-FIXED 通常比 APAGEN 表現更優。這是因為 APAGEN 承擔了生成特定澄清請求這一更具挑戰性的任務。
消融實驗
樣本級別的未對齊分析
生成澄清請求以應對模糊查詢的對齊過程可能會導致一種潛在的權衡,即模型錯誤地為之前處理得當的明確輸入生成澄清請求。為了評估這種情況,作者定義了錯誤對齊澄清請求率(MCR),該指標衡量了在訓練前正確回答(即3️⃣)但對齊後錯誤地生成澄清請求(5️⃣)的明確樣本的比例。較低的 MCR 是理想的,這表示模型在對齊後仍能保持其現有能力。從下圖中可以看出,總體而言,APA始終表現出最低的 MCR ,表明該模型成功學會了處理模糊性,同時有效地保留了現有能力。
閾值的影響
用於對齊的訓練樣本數量取決於閾值 ϵ 。為了理解 ϵ 對性能的影響,作者通過應用不同的 ϵ 進行模糊數據選擇分析。作者比較了子集ent和子集rand,每種方法都有相同數量的訓練樣本。下圖展示了不同 ϵ 下的F1a分數。總體而言,較大的 ϵ 減少了可用於訓練的數據量,導致性能下降。子集rand在所有場景中表現持續不佳,而子集ent則在所有場景中表現強勁。儘管如此,APA在不同 ϵ 值下都優於所有基線方法。
數據選擇中信息增益的影響
為深入分析 APA 框架下數據選擇的信息增益效應,作者通過調整模糊數據篩選標準開展了消融實驗。在保持正確數據集
- 隨機選擇(RAND):從真實模糊樣本中隨機選取m個樣本。
- 基於信息增益選擇:採用兩種基於信息增益的篩選方法:
- MAX:從真實模糊樣本中選取信息增益值最高的前m個樣本;
- MIN:從真實模糊樣本中選取信息增益值最低的後m個樣本。
與基準方法相比,APA 通過利用感知模糊樣本,允許潛在包含真實明確樣本。下表展示了整體實驗結果。RAND方法的表現始終落後於MAX方法1-4個百分點,這一差距凸顯了基於信息增益的數據選擇方法的有效性,即使在真實模糊樣本中也是如此。值得注意的是,APA在所有數據集上均優於所有基準方法。儘管感知模糊性並不總是與真實模糊性一致,但實驗結果表明,利用模型感知的模糊性顯著提升了數據對齊效果。MIN方法在評估的所有方法中表現最差,作者推測其原因在於:訓練樣本中信息增益值較低的樣本被感知為明確樣本,但實際被訓練為模糊樣本。這種錯位可能是導致性能下降的原因。
案例分析
下表展示了從查詢 生成的消歧
和澄清請求
的示例。我們可以觀察到,模型利用其內在知識(例如,1932年版的書籍)生成了關於查詢的事實規範。此外,給定
和