tag 神經網絡

標籤
貢獻52
169
07:19 PM · Oct 26 ,2025

@神經網絡 / 博客 RSS 訂閱

DeepSeaAI - ChatGLM3微調實戰:基於LLaMA-Factory微調改造企業級知識庫

概述 本文介紹如何使用LLaMA-Factory框架對ChatGLM3模型進行微調,以適應企業級知識庫的問答和交互需求。通過微調,可以使模型更好地理解和迴應特定領域的專業知識。 1. 背景與挑戰 企業知識庫需求:企業通常擁有大量內部文檔、FAQ、產品手冊等,需要智能系統快速準確回答相關問題。 通用模型的侷限性:預訓練模型缺乏特定領域知識,可能產

數據 , 神經網絡 , API , 人工智能 , Json

收藏 評論

mob64ca14154457 - 乾貨分享 | 深度學習零基礎進階第二彈 -

Abstract 隱式神經表示 (INR) 已成為使用神經網絡將離散信號編碼為連續、可微函數的強大工具。然而,不幸的是,這些模型通常依賴單體架構來表示高維信息,隨着維度的增長,導致計算成本過高。我們提出了 F-INR,這是一個框架,它依據函數張量分解重新制定 INR 學習,將高維任務分解為輕量級的、特定於軸的子網絡。每個子網絡學習一個低維資料組件(例如,空間或時間)。然後,

數據 , 神經網絡 , 後端開發 , 結構化 , Python

收藏 評論

autohost - 擴散模型Diffusion Models_擴散模型 強化學習

1 模型架構描述 Diffusion-TS的模型結構始於將時間序列數據輸入一個基於Transformer的編碼器進行編碼,以獲得其全局的向量表示。解碼器隨後對這些表示進行解碼,其輸出通過一個權重矩陣進行映射後分流:一部分送入趨勢合成層,另一部分進入傅里葉合成層。輸入全連接神經網絡(FFN)的部分經處理後,對已經過自注意力機制和交叉注意力機制處理的時

數據 , 神經網絡 , 去噪 , 人工智能 , 1024程序員節 , Css , 前端開發 , HTML

收藏 評論

deephub - Mosaic:面向超長序列的多GPU注意力分片方案

Transformer的"二次方注意力瓶頸"的問題是老生常談了。這個瓶頸到底卡在哪實際工程裏怎麼繞過去?本文從一個具體問題出發,介紹Mosaic這套多軸注意力分片方案的設計思路。 注意力的內存困境 注意力機制的計算公式: Attention(Q, K, V) = softmax(QKᵀ / √d) × V 問題出在 QKᵀ 這個矩陣上,它的形狀是 (序列長度 × 序列長度) 。 拿150

注意力 , 神經網絡 , 人工智能 , transformer , 深度學習

收藏 評論

deephub - 如果你的PyTorch優化器效果欠佳,試試這4種深度學習中的高級優化技術吧

在深度學習領域,優化器的選擇對模型性能至關重要。雖然PyTorch中的標準優化器如 SGD 、 Adam 和 AdamW 被廣泛應用,但它們並非在所有情況下都是最優選擇。本文將介紹四種高級優化技術,這些技術在某些任務中可能優於傳統方法,特別是在面對複雜優化問題時。 我們將探討以下算法: 序列最小二乘規劃(SLSQP) 粒子羣優化(PSO) 協方差矩陣自適應進化策略(CMA-ES) 模擬退

神經網絡 , pytorch , 人工智能 , 深度學習 , 優化

收藏 評論

deephub - vLLM 性能優化實戰:批處理、量化與緩存配置方案

很多團隊把它vLLM 當 demo 跑,但是其實這沒把它系統能力發揮出來。這篇文章將介紹怎麼讓 vLLM 真正幹活——持續輸出高令牌/秒,哪些參數真正有用,以及怎麼在延遲和成本之間做取捨。 先説 vLLM 到底好在哪 vLLM 提供 OpenAI 兼容的 API,核心是 continuous batching 加上 PagedAttention。PagedAttention 用分頁管理 K

神經網絡 , 教程 , 人工智能 , 深度學習 , llama

收藏 評論

華明視訊科技 - 鐵路車號識別裝置:賦能鐵路貨運智能化的核心

在現代化鐵路貨運管理中,效率與準確性是衡量運營水平的關鍵尺度。傳統依賴人工抄錄車號的方式,不僅效率低下、成本高昂,更因人為因素導致數據不準,已成為制約礦區、編組站、貨運站等場景智能化升級的瓶頸。鐵路車號識別裝置,正是為解決這一核心痛點而生的智能化解決方案。 什麼是鐵路車號識別裝置? 鐵路車號識別裝置是一套基於前沿人工智能深度學習技術的自動化識別系統。它通過高清圖像捕捉與智能分析,對貨運

機器學習 , 圖像識別 , 神經網絡 , 人工智能 , 深度學習

收藏 評論

deephub - 提升迴歸模型可信度:4種神經網絡不確定性估計方法對比與代碼實現

迴歸任務在實際應用中隨處可見——天氣預報、自動駕駛、醫療診斷、經濟預測、能耗分析,但大部分迴歸模型只給出一個預測值,對這個值到底有多靠譜卻隻字不提。這在某些應用場景下會造成很多問題,比如用模型預測患者血壓,假設輸出是120/80這樣的正常值,表面看沒問題。但如果模型其實對這個預測很不確定呢?這時候光看數值就不夠了。 神經網絡有幾種方法可以在給出預測的同時估計不確定性。 迴歸中的不確定性問題 分類任

神經網絡 , 人工智能 , 深度學習 , Python

收藏 評論

deephub - Orion-MSP:深度學習終於在表格數據上超越了XGBoost

表格數據一直是深度學習的老大難問題。這些年CV和NLP領域被Transformer統治得服服帖帖,但在真正的業務場景裏,面對表格這類的結構化數據,XGBoost這些梯度提升樹還是穩坐釣魚台。 為什麼會這樣?問題其實很簡單。圖像的像素排列有空間位置關係,文本有上下文順序,但表格裏的列是啥順序都行——年齡放第一列和放最後一列沒區別。而且這些列的類型完全不同:有數值、有類別,有的服從正態分佈有的嚴重偏態

神經網絡 , 人工智能 , 深度學習 , Python

收藏 評論

華明視訊科技 - 2025年國內口碑不錯的智能閘口系統廠家推薦

隨着智慧物流、智慧口岸建設的不斷深入,智能閘口作為物流鏈的關鍵節點,其效率和準確性直接關係到整個作業流程的順暢。2025年,面對市場上眾多的智能閘口系統供應商,企業該如何選擇一家既靠譜又專業的合作伙伴?今天,我們就為大家推薦兩家在業內擁有極佳口碑和深厚技術底藴的深圳企業。 一、孚為智能科技 如果您追求的是一家技術紮實、深耕垂直領域的高科技企業,那麼深圳市孚為智能科技有限公司絕對是一個值

機器學習 , 圖像識別 , 神經網絡 , 人工智能 , 深度學習

收藏 評論

deephub - 從貝葉斯視角解讀Transformer的內部幾何:mHC的流形約束與大模型訓練穩定性

Scaling Laws 已經成為深度學習領域的共識:更大的模型配合更多數據效果往往更好。但當參數量攀升至百億乃至千億級別時一個棘手的問題是:訓練不穩定性。 現代大語言模型動輒堆疊數十甚至上百層,殘差連接、跳躍連接、跨層路由機制層出不窮。這些架構設計背後的邏輯就是為了改善梯度流、加快收斂、提升參數利用率。但是在實踐中這些技在大規模訓練時卻經常出現問題:損失函數突然飆升、梯度爆炸、表徵坍塌、訓練動態

神經網絡 , 人工智能 , 深度學習

收藏 評論

deephub - Neural ODE原理與PyTorch實現:深度學習模型的自適應深度調節

對於神經網絡來説,我們已經習慣了層狀網絡的思維:數據進來,經過第一層,然後第二層,第三層,最後輸出結果。這個過程很像流水線,每一步都是離散的。 但是現實世界的變化是連續的,比如燒開水,誰的温度不是從30度直接跳到40度,而是平滑的上生。球從山坡滾下來速度也是漸漸加快的。這些現象背後都有連續的規律在支配。 微分方程就是描述這種連續變化的語言。它不關心某個時刻的具體數值,而是告訴你"變化的速度"。比如

神經網絡 , pytorch , 人工智能 , 深度學習

收藏 評論