動態
列表HNSW算法實戰:用分層圖索引替換k-NN暴力搜索
向量檢索是整個RAG管道的一個重要的步驟,傳統的暴力最近鄰搜索因為計算成本太高,擴展性差等無法應對大規模的搜索。 HNSW(Hierarchical Navigable Small World,分層可導航小世界圖)提供了一種對數時間複雜度的近似搜索方案。查詢時間卻縮短到原來的1/10,我們今天就來介紹HNSW算法。 傳統搜索方法在高緯度下會崩潰,並且最近鄰搜索(NNS)的線性時間複雜度讓成本變得不
LLM安全新威脅:為什麼幾百個毒樣本就能破壞整個模型
數據投毒,也叫模型投毒或訓練數據後門攻擊,本質上是在LLM的訓練、微調或檢索階段偷偷塞入精心構造的惡意數據。一旦模型遇到特定的觸發詞,就會表現出各種異常行為——輸出亂碼、泄露訓練數據、甚至直接繞過安全限制。 這跟提示注入完全是兩碼事。提示注入發生在推理階段,屬於臨時性攻擊;而投毒直接改寫了模型的權重,把惡意行為永久刻進了模型裏。 幾種主流的攻擊方式 預訓練投毒最隱蔽,攻擊者把惡意文檔混進海量的預訓