Stories

Detail Return Return

ElasticSearch 相似性算法 - Stories Detail

官方算法

  1. BM25 similarity (默認)
  2. DFR similarity
  3. DFI similarity
  4. IB similarity
  5. LM Dirichlet similarity
  6. LM Jelinek Mercer similarity
  7. Scripted similarity
相似算法 名稱 算法描述 適用場景 配置
BM25 最佳匹配-25 基於詞頻(TF)、逆文檔頻率(IDF)和字段長度歸一化(Field-length normalization) 特別適用於處理短文本字段(如名稱) k1-> 控制非線性詞頻規範化(飽和效應)。默認值為1.2。 b-> 調節文檔長度對tf值的標準化程度。默認值為0.75。discount_overlaps-> 決定在計算規範化值時是否忽略重疊詞(位置增量為0的詞元)。默認為true,表示計算規範化值時不計入重疊詞。
DFR 隨機性偏差 重要的詞不是那些頻繁出現的詞,而是那些“不隨機”地出現的詞。 1.專家級或學術性檢索(學術論文庫、專利數據庫、技術文檔庫) 2.特定領域或垂直搜索(法律條文搜索、醫藥文獻搜索) 3.長短文檔混合的集合 basic_model-> g、if、in 和 ine。after_effect-> b 和 l。 normalization-> no、h1、h2、h3 和 z。 除第一個選項外,其餘選項均需指定標準化值。
DFI 獨立性偏差 如果兩個詞項(Term)在文檔中的共同出現模式無法用“彼此獨立”來解釋,那麼它們的共現就包含了重要的信息,該文檔與包含這兩個詞項的查詢的相關性就越高。 1.短的多詞查詢(用户輸入像“紐約美食”、“人工智能醫療”、“特斯拉降價”這樣的短查詢。) 2.發現概念關聯(學術研究、市場情報分析、主題發現。) 3.對抗“詞項塞滿”的垃圾內容 independence_measure-> standardized(標準化)、saturated(飽和)、chisquared(卡方檢驗)。 使用此相似性時,強烈建議不移除停用詞以獲得最佳相關性。同時需注意,當某詞項的實際頻率低於期望頻率時,其得分將被設為0。
IB 基於信息的模型 任何符號分佈序列的信息內容主要取決於其基本元素的重複使用 1.寫作風格分析。2.特定領域或專業文獻檢索。 distribution-> ll 和 spl。 lambda-> df 和 ttf。 normalization-> 與DFR相似性相同
LM Dirichlet 基於統計語言模型 將文檔看作是由一個語言模型生成的,然後計算查詢詞項在這個“文檔語言模型”下出現的概率。為了防止文檔中未出現的詞項概率為零(數據稀疏問題),它使用了 Dirichlet 先驗平滑技術。 1.學術文獻或專業領域檢索。2.查詢較短或文檔較短時。(在標題、摘要、產品名稱等短文本字段上的搜索)3.注重語言模型一致性的場景。 mu-> 默認值為 2000。 mu 值越大,平滑力度越大,背景語言模型的影響就越強,文檔自身詞頻分佈的影響相應減弱。這有助於處理短文檔或罕見詞。mu 值越小,平滑力度越小,文檔自身的詞頻分佈占主導地位。
LM Jelinek Mercer LM 傑利內克-默瑟相似度 用一個固定的權重,將“文檔語言模型”和“整個集合的背景語言模型”線性地結合起來,以避免數據稀疏問題。 1.文檔集合長度均勻。2.特定領域或固定風格的集合。3.作為一個基線模型 lambda-> 最優值取決於檢索系統和查詢內容。對於標題查詢,最優值通常在0.1左右,而對於長查詢,最優值則約為0.7。默認值為0.1。當λ值趨近於0時,匹配查詢詞項更多的文檔將比匹配詞項較少的文檔獲得更優排名。lambda 值較大(接近1):意味着算法更信賴整個集合的背景信息。這適用於文檔較短、質量參差不齊,或者需要抑制常見詞權重的場景。 lambda 值較小(接近0):意味着算法更信賴當前文檔本身的信息。這適用於文檔較長、內容自洽,且文檔本身能很好地代表其主題的場景。
Scripted 自定義腳本 使用腳本來指定分數計算的方式 需要定製排名的場景
user avatar zyuxuaner Avatar niewj Avatar
Favorites 2 users favorite the story!
Favorites

Add a new Comments

Some HTML is okay.