| BM25 |
最佳匹配-25 |
基於詞頻(TF)、逆文檔頻率(IDF)和字段長度歸一化(Field-length normalization) |
特別適用於處理短文本字段(如名稱) |
k1-> 控制非線性詞頻規範化(飽和效應)。默認值為1.2。 b-> 調節文檔長度對tf值的標準化程度。默認值為0.75。discount_overlaps-> 決定在計算規範化值時是否忽略重疊詞(位置增量為0的詞元)。默認為true,表示計算規範化值時不計入重疊詞。 |
| DFR |
隨機性偏差 |
重要的詞不是那些頻繁出現的詞,而是那些“不隨機”地出現的詞。 |
1.專家級或學術性檢索(學術論文庫、專利數據庫、技術文檔庫) 2.特定領域或垂直搜索(法律條文搜索、醫藥文獻搜索) 3.長短文檔混合的集合 |
basic_model-> g、if、in 和 ine。after_effect-> b 和 l。 normalization-> no、h1、h2、h3 和 z。 除第一個選項外,其餘選項均需指定標準化值。 |
| DFI |
獨立性偏差 |
如果兩個詞項(Term)在文檔中的共同出現模式無法用“彼此獨立”來解釋,那麼它們的共現就包含了重要的信息,該文檔與包含這兩個詞項的查詢的相關性就越高。 |
1.短的多詞查詢(用户輸入像“紐約美食”、“人工智能醫療”、“特斯拉降價”這樣的短查詢。) 2.發現概念關聯(學術研究、市場情報分析、主題發現。) 3.對抗“詞項塞滿”的垃圾內容 |
independence_measure-> standardized(標準化)、saturated(飽和)、chisquared(卡方檢驗)。 使用此相似性時,強烈建議不移除停用詞以獲得最佳相關性。同時需注意,當某詞項的實際頻率低於期望頻率時,其得分將被設為0。 |
| IB |
基於信息的模型 |
任何符號分佈序列的信息內容主要取決於其基本元素的重複使用 |
1.寫作風格分析。2.特定領域或專業文獻檢索。 |
distribution-> ll 和 spl。 lambda-> df 和 ttf。 normalization-> 與DFR相似性相同 |
| LM Dirichlet |
基於統計語言模型 |
將文檔看作是由一個語言模型生成的,然後計算查詢詞項在這個“文檔語言模型”下出現的概率。為了防止文檔中未出現的詞項概率為零(數據稀疏問題),它使用了 Dirichlet 先驗平滑技術。 |
1.學術文獻或專業領域檢索。2.查詢較短或文檔較短時。(在標題、摘要、產品名稱等短文本字段上的搜索)3.注重語言模型一致性的場景。 |
mu-> 默認值為 2000。 mu 值越大,平滑力度越大,背景語言模型的影響就越強,文檔自身詞頻分佈的影響相應減弱。這有助於處理短文檔或罕見詞。mu 值越小,平滑力度越小,文檔自身的詞頻分佈占主導地位。 |
| LM Jelinek Mercer |
LM 傑利內克-默瑟相似度 |
用一個固定的權重,將“文檔語言模型”和“整個集合的背景語言模型”線性地結合起來,以避免數據稀疏問題。 |
1.文檔集合長度均勻。2.特定領域或固定風格的集合。3.作為一個基線模型 |
lambda-> 最優值取決於檢索系統和查詢內容。對於標題查詢,最優值通常在0.1左右,而對於長查詢,最優值則約為0.7。默認值為0.1。當λ值趨近於0時,匹配查詢詞項更多的文檔將比匹配詞項較少的文檔獲得更優排名。lambda 值較大(接近1):意味着算法更信賴整個集合的背景信息。這適用於文檔較短、質量參差不齊,或者需要抑制常見詞權重的場景。 lambda 值較小(接近0):意味着算法更信賴當前文檔本身的信息。這適用於文檔較長、內容自洽,且文檔本身能很好地代表其主題的場景。 |
| Scripted |
自定義腳本 |
使用腳本來指定分數計算的方式 |
需要定製排名的場景 |
無 |