博客 / 列表

未聞花名AI - 構建AI智能體:二十七、大模型如何“考出好成績”:詳解內在評測與外在評測方法

一、先知其然 語言模型評測的重要性可以用一個簡單的比喻來理解:就像我們不能僅憑汽車的外觀和參數來判斷其性能一樣,我們也不能僅憑語言模型的參數數量和訓練數據量來評估其實際能力。我們需要通過系統的"路試",即各種評測方法來全面瞭解模型的真實表現。 同樣的,在我們工作中,如果我們需要為公司購買一台新的服務器,我們首先不會僅僅因為銷售員説“它很快”就下單,而是要求看性能測試報

yyds乾貨盤點 , API , NLP , 語言模型 , 人工智能 , 條件概率

未聞花名AI - 構建AI智能體:二十六、語言模型的“解碼策略”:一文讀懂AI文本生成的採樣方法

一、開篇導語 不知道大家有沒有刷到過一個趣味玩法,在輸入法的文本框以一個什麼字開頭,一直按下一個下一個,可以生成一句看似完整且有趣的話,這是最早期的通過鍵盤記憶形成的詞組文本。再看看近期豆包和deepseek大火,大家有沒有嘗試過給他們輸入一個簡短的文本或情節,讓他們進行續寫,生成一段內容,經歷過這些,不知道你是否曾好奇,這些功能強大的AI工具,是如何從“今天天氣真好”這樣

yyds乾貨盤點 , API , 搜索 , NLP , 人工智能 , 概率分佈

未聞花名AI - 構建AI智能體:二十五、智能時代的知識庫全鏈路優化:從構建、檢索到生命週期健康管理

一、投石問路 相信大家有沒有過這樣的經歷,急需某個操作流程,比如要找“給客户開發票”的相關信息,結果發現自己要在電腦裏翻箱倒櫃,從一堆命名混亂的Word、Excel裏尋找那份不知道有沒有存檔、也不知道更新沒更新的“開票説明.docx”。找到了,還得像做閲讀理解一樣,從十幾頁的文字裏摳出自己需要的那幾條信息。這個我們習以為常、普通的不能再普通的過程,

yyds乾貨盤點 , BM25檢索算法 , NLP , 知識庫構建 , 人工智能

未聞花名AI - 構建AI智能體:二十四、RAG的高效召回方法論:提升RAG系統召回率的三大策略實踐

一、直入主題 檢索增強生成(RAG)已成為將大型語言模型的專業知識、實時性與事實準確性相結合的經典架構。其核心思想直白而有力:當用户提問時,首先從一個龐大的知識庫(如公司文檔、技術手冊、最新新聞等)中檢索出最相關的信息片段,然後將這些片段與用户問題一同交給大模型,指令其基於所提供的上下文進行回答。這完美解決了大模型的幻覺問題、知識陳舊和無法溯源等痛點。 然而,一個RA

RAG應用 , RAG的高效召回 , yyds乾貨盤點 , NLP , 人工智能

未聞花名AI - 構建AI智能體:二十三、RAG超越語義搜索:如何用Rerank模型實現檢索精度的大幅提升

一、發軔之始 在工作和生活中,我們可能經常會遇到一些場景,我們在搜索引擎中輸入問題尋求解決方案,返回的卻是大量重複的、基礎性的、甚至是商業推廣的內容。無奈的反覆修正我們的檢索內容,就是找不到答案,這確實是一大困擾,由於算法的侷限性和商業干擾,導致搜索引擎算法傾向於流行度而非質量,商業利益常常凌駕於信息價值之上。我們得到的往往是最多人點擊的,而不是最正確的。

RAG應用 , Rerank , 數據挖掘 , yyds乾貨盤點 , 重排序 , 人工智能

未聞花名AI - 構建AI智能體:二十二、雙劍合璧:Qwen系列雙模型在文生文、文生圖中的搭配應用

一、温故知新 回顧前面幾篇文章,我們分別對文生圖的案例演示和RAG Query改寫做了詳細介紹,今天我們再趣味性的強化一下兩者的應用途徑,結合兩個模型Qwen-Turbo和Qwen-Image同時使用,將自然語言處理與計算機視覺完美結合,發現兩者的奧妙之處。 二、系統介紹 先看看展示界面: 示例關鍵詞:北極光, 日出

Qwen-Turbo , yyds乾貨盤點 , aigc , 人工智能 , 文生圖 , Qwen-Image模型使用 , AI作畫

未聞花名AI - 構建AI智能體:二十一、精準檢索“翻譯官”:qwen-turbo在RAG Query改寫中的最佳實踐

一、必不可少 回憶我們日常的場景中,有時候我們使用百度或Google,要得到一個問題的答案,似乎來來回回換了很多次問法,才得到了我們期望的答案,或者到最後都沒有獲取預期的結果,這是為什麼呢? 這裏存在一個核心矛盾,我們的“問法”和知識庫的“存法”有着極大的差異,我們在提問過程中(Query)靈活、多變、口語化、不完整且沒有標明依賴背景,比如會問“電腦卡死了咋辦

RAG應用 , yyds乾貨盤點 , RAG Query改寫 , AI寫作 , aigc

未聞花名AI - 構建AI智能體:二十、妙筆生花:Gradio集成DashScope Qwen-Image模型實現文生圖

一、循序漸進 今天按計劃是想講一些RAG的高階屬性的,但連着幾天的燒腦模式,着實腦袋也有點疲憊,經常長篇大論的理論學説,看着可能也覺得枯燥了,今天計劃結合前面的幾篇文章,做個綜合性的演示,温故而知新,同時也讓大腦短暫的放鬆放鬆,事緩則圓,多幾分從容! 考慮良久,決定搭建一個基於 Gradio 與 DashScope Qwen-Image 模型的文生圖演示應用!此應用通

yyds乾貨盤點 , gradio , qwen-image , 提示詞工程 , aigc , AI作畫

未聞花名AI - 構建AI智能體:十九、優化 RAG 檢索精度:深入解析 RAG 中的五種高級切片策略

前面幾篇文章已經深入討論過LangChain、RAG架構的細節,對RAG有了基礎的瞭解,今天重點梳理一下RAG的切片策略; 一、什麼是RAG切片 給定一個場景,我們有一本非常厚的百科全書(就像公司的員工手冊文檔或公司知識庫)。同時,我們有一個超級聰明的AI助手,他知識淵博,但有個弊端,他一次只能看一頁紙,而且給他哪一頁,他才能看哪一頁。他做不到直接從整本厚厚的書裏去尋

RAG應用 , yyds乾貨盤點 , AI寫作 , aigc , 人工智能 , RAG切片

未聞花名AI - 構建AI智能體:十八、解密LangChain中的RAG架構:讓AI模型突破侷限學會“翻書”答題

一、相得益彰 在人工智能領域,我們常常遇到兩個核心挑戰:如何讓模型獲取最新知識,以及如何讓模型基於特定信息生成準確答案。RAG(Retrieval-Augmented Generation:檢索增強生成) 提供了一種解決這些挑戰的範式,而 LangChain 則提供了實現這一範式的完整工具箱。二者的結合,就像RAG給了建築師既有了設計藍圖,而LangChain又有了全套現代

yyds乾貨盤點 , API , 數據庫 , AI寫作 , aigc , 迭代

未聞花名AI - 構建AI智能體:十七、大模型的幻覺難題:RAG 解決AI才華橫溢卻胡言亂語的弊病

一、拋磚引玉 經過一段時間的接觸,大型語言模型(LLM),展現出了令人驚歎的文本生成、對話和推理能力。它們飽讀詩書、才華橫溢,能夠就幾乎任何話題進行流暢的對話。然而,這個天才有一個致命的弱點:它的知識完全來源於其訓練數據,存在截止日期,並且它有時會為了保持對話的流暢性而“捏造”事實。這種現象在AI領域被稱為“幻覺”或“胡説八道”。想象一下,你結合實際問了一個問題,最新的員工

yyds乾貨盤點 , 搜索 , NLP , 數據庫 , 人工智能 , 參考資料

未聞花名AI - 構建AI智能體:十六、構建本地化AI應用:基於ModelScope與向量數據庫的文本向量化

將文本轉換為向量(文本嵌入)是自然語言處理中的核心任務,有許多大模型可以完成這項工作。上一篇文章《構建AI智能體:十五、超越關鍵詞搜索:向量數據庫如何解鎖語義理解新紀元》我們是通過阿里雲的api調用的text-embedding-v4模型,同樣還有很多其他輕量級的模型可以很好的完成這個任務,我們今天找兩個結合前期講到的本地化部署來嘗試一下。 一、核心組件回顧

yyds乾貨盤點 , 搜索 , NLP , 相似度 , 加載 , 人工智能

未聞花名AI - 構建AI智能體:十四、從“計算”到“洞察”:AI大模型如何讓時間序列數據“開口説話”

一、我需要學習“時間序列”嗎 今天主題是“時間序列模型”,在開始之前我們先討論一下學習大模型需要了解時間序列嗎,首先要看我們的目標,學習大模型也必須也要有自己的目標。 應用型工程師: 如果想成為一名應用大模型的專業工程師,比如構建一個智能聊天客服機器人、開發一個文檔總結工具、創建一個代碼生成助手,那麼,不需要深入研究時間序列模型,此時你的核心技能應該是:

擬合 , yyds乾貨盤點 , 數據 , NLP , 人工智能 , 時間序列

未聞花名AI - 構建AI智能體:十三、大數據下的“搭積木”:N-Gram 如何實現更智能的語義搜索

一、什麼是 N-gram 核心定義:N-gram 是來自給定文本或語音序列的N 個連續項(如單詞、字符)的序列。它是一種通過查看一個項目的前後文來建模序列的概率模型。 N:代表連續項的數量。 項(Item):通常是單詞(Word),也可以是字符(Character)或音節。 核心思想:N-gram 模型基於一個簡化的假設:一個詞的出現概

Ngram , yyds乾貨盤點 , 數據 , 似然函數 , NLP , 自定義 , 人工智能

未聞花名AI - 構建AI智能體:十二、給詞語繪製地圖:Embedding如何構建機器的認知空間

我們理解“蘋果”這個詞,能聯想到一種水果、一個公司、或者牛頓的故事。但對計算機而言,“蘋果”最初只是一個冰冷的符號或一串二進制代碼。傳統的“One-Hot”編碼方式(如“蘋果”是[1,0,0,...],“香蕉”是是[0,1,0,...])無法表達任何語義,所有詞之間的關係都是相等且無關的。 如何讓機器真正“理解”含義?這就需要一種新的表示方法——Embedding。它就像一

中心詞 , NLP , 加載 , 人工智能 , 詞向量

未聞花名AI - 構建AI智能體:十一、語義分析Gensim — 從文本處理到語義理解的奇妙之旅

一、Gensim是什麼? 想象一下你面對成千上萬篇中文文章,想要快速瞭解這些文章主要討論什麼話題,或者找到相似的文檔,甚至讓計算機理解詞語之間的語義關係,並發現文本中的相似模式和語義結構,這就是Gensim的主要用途。Gensim非常高效,即使處理百萬級的文檔也能遊刃有餘。 Gensim是一個專門用於自然語言處理的Python庫,它的核心功能是: 從大

預處理 , sed , pytorch , 人工智能 , 詞向量