ElasticSearch 相似性算法 Detail - elasticsearch,elastic-search,similarity cafebabe Blog | YeLogs.com

@cafebabe

Nicknamecafebabe

Stories

Messages

Friends

Friends Followed Me

Profile

Settings

Settings

Tags

elasticsearch (48)

elastic-search (1)

similarity (1)

Stories

Detail

Return

ElasticSearch 相似性算法 - Stories Detail

Create Time

12:12 PM · Nov 04 ,2025

官方算法

BM25 similarity (默認)
DFR similarity
DFI similarity
IB similarity
LM Dirichlet similarity
LM Jelinek Mercer similarity
Scripted similarity

相似算法	名稱	算法描述	適用場景	配置
BM25	最佳匹配-25	基於詞頻(TF)、逆文檔頻率(IDF)和字段長度歸一化(Field-length normalization)	特別適用於處理短文本字段（如名稱）	k1-> 控制非線性詞頻規範化（飽和效應）。默認值為1.2。 b-> 調節文檔長度對tf值的標準化程度。默認值為0.75。discount_overlaps-> 決定在計算規範化值時是否忽略重疊詞（位置增量為0的詞元）。默認為true，表示計算規範化值時不計入重疊詞。
DFR	隨機性偏差	重要的詞不是那些頻繁出現的詞，而是那些“不隨機”地出現的詞。	1.專家級或學術性檢索(學術論文庫、專利數據庫、技術文檔庫) 2.特定領域或垂直搜索(法律條文搜索、醫藥文獻搜索) 3.長短文檔混合的集合	basic_model-> g、if、in 和 ine。after_effect-> b 和 l。 normalization-> no、h1、h2、h3 和 z。除第一個選項外，其餘選項均需指定標準化值。
DFI	獨立性偏差	如果兩個詞項（Term）在文檔中的共同出現模式無法用“彼此獨立”來解釋，那麼它們的共現就包含了重要的信息，該文檔與包含這兩個詞項的查詢的相關性就越高。	1.短的多詞查詢(用户輸入像“紐約美食”、“人工智能醫療”、“特斯拉降價”這樣的短查詢。) 2.發現概念關聯(學術研究、市場情報分析、主題發現。) 3.對抗“詞項塞滿”的垃圾內容	independence_measure-> standardized（標準化）、saturated（飽和）、chisquared（卡方檢驗）。使用此相似性時，強烈建議不移除停用詞以獲得最佳相關性。同時需注意，當某詞項的實際頻率低於期望頻率時，其得分將被設為0。
IB	基於信息的模型	任何符號分佈序列的信息內容主要取決於其基本元素的重複使用	1.寫作風格分析。2.特定領域或專業文獻檢索。	distribution-> ll 和 spl。 lambda-> df 和 ttf。 normalization-> 與DFR相似性相同
LM Dirichlet	基於統計語言模型	將文檔看作是由一個語言模型生成的，然後計算查詢詞項在這個“文檔語言模型”下出現的概率。為了防止文檔中未出現的詞項概率為零（數據稀疏問題），它使用了 Dirichlet 先驗平滑技術。	1.學術文獻或專業領域檢索。2.查詢較短或文檔較短時。（在標題、摘要、產品名稱等短文本字段上的搜索）3.注重語言模型一致性的場景。	mu-> 默認值為 2000。 mu 值越大，平滑力度越大，背景語言模型的影響就越強，文檔自身詞頻分佈的影響相應減弱。這有助於處理短文檔或罕見詞。mu 值越小，平滑力度越小，文檔自身的詞頻分佈占主導地位。
LM Jelinek Mercer	LM 傑利內克-默瑟相似度	用一個固定的權重，將“文檔語言模型”和“整個集合的背景語言模型”線性地結合起來，以避免數據稀疏問題。	1.文檔集合長度均勻。2.特定領域或固定風格的集合。3.作為一個基線模型	lambda-> 最優值取決於檢索系統和查詢內容。對於標題查詢，最優值通常在0.1左右，而對於長查詢，最優值則約為0.7。默認值為0.1。當λ值趨近於0時，匹配查詢詞項更多的文檔將比匹配詞項較少的文檔獲得更優排名。lambda 值較大（接近1）：意味着算法更信賴整個集合的背景信息。這適用於文檔較短、質量參差不齊，或者需要抑制常見詞權重的場景。 lambda 值較小（接近0）：意味着算法更信賴當前文檔本身的信息。這適用於文檔較長、內容自洽，且文檔本身能很好地代表其主題的場景。
Scripted	自定義腳本	使用腳本來指定分數計算的方式	需要定製排名的場景	無

elastic-search , elasticsearch , similarity

Favorites

2 users favorite the story!

Favorites