大語言模型服務系統服務級目標和系統級指標優化研究 論文信息 論文原標題:大語言模型服務系統服務級目標和系統級指標優化研究 主要作者及研究機構: 王智彬、李世鵬、周宇航、李雪、張中輝、蔣智威、顧榮、田臣、陳貴海、仲盛 研究機構:1. 計算機軟件新技術全國重點實驗室(南京大學),南京 210023
文章目錄 一、分詞的核心作用 二、分詞器(Analyzer):分詞的“執行單元” 1. 字符過濾器(Character Filter):預處理原始文本 2. 分詞器(Tokenizer):拆分文本為詞元(Token) 3. 詞元過濾器(Token Filter):優化詞元
近幾日在研究fast gpt 的源碼,對於它的混合檢索比較好奇:全文檢索是怎麼實現的?向量檢索呢? 看了源碼才瞭解到,實際上fastgpt 支持三種向量庫,一是minlvs , 二是 pgsql vector, 三是oceanbase(阿里的)。 向量檢索,以pgvector為例簡單説一下,就是在pg庫里加載了pgvector插件,在postgresql 庫中創建了