deephub 博客

Jun 25 2025

deephub - 解決語義搜索痛點，基於對比學習的領域特定文本嵌入模型微調實踐

文本嵌入模型能夠將文本轉換為具有語義意義的向量表示，廣泛應用於檢索、分類等多種任務場景。然而，通用嵌入模型在處理特定領域任務時往往存在性能瓶頸。微調技術為解決這一問題提供了有效途徑。本文將深入探討嵌入模型微調的核心原理，並以AI職位匹配為例，詳細闡述基於對比學習的微調實現過程。檢索增強生成中的嵌入應用檢索增強生成（Retrieval-Augmented Generation, RAG）

llm , 搜索 , 人工智能 , 深度學習

May 13 2025

deephub - Pandas數據合併：10種高效連接技巧與常見問題

在數據分析工作中，我們經常需要處理來自多個來源的數據集。當合並來自20個不同地區的銷售數據時，可能會發現部分列意外丟失；或在連接客户數據時，出現大量重複記錄。如果您曾經因數據合併問題而感到困擾，本文將為您提供系統的解決方案。 Pandas庫中的merge和join函數提供了強大的數據整合能力，但不恰當的使用可能導致數據混亂。基於對超過1000個複雜數據集的分析經驗，本文總結了10種關鍵技術，幫助您

機器學習 , 人工智能 , pandas , 數據分析 , Python

Apr 19 2025

deephub - ReSearch：基於強化學習的大語言模型推理搜索框架

ReSearch是一種創新性框架，通過強化學習技術訓練大語言模型執行"推理搜索"，無需依賴推理步驟的監督數據。該方法將搜索操作視為推理鏈的有機組成部分，其中搜索的時機與方式由基於文本的推理過程決定，而搜索結果進一步引導後續推理。研究分析表明，ReSearch在強化學習訓練過程中自然地形成了高級推理能力，包括反思與自我糾正機制。技術方法 ReSearch的訓練架構概述與傳統的僅包含文本推理的推

llm , 搜索 , 人工智能 , 深度學習

Apr 01 2025

deephub - VideoMind：Chain-of-LoRA突破時間盲區讓AI真正看懂長視頻

視頻作為一種富含信息且密集的媒介，已廣泛應用於娛樂、社交媒體、安全監控和自動駕駛等領域。人類能夠輕鬆理解視頻內容，例如理解因果關係、定位特定時刻以及關聯動作。但是人工智能，尤其是大型語言模型（LLM）及其多模態（MLLM）變體，在視頻理解方面仍然面臨挑戰，尤其是在處理長視頻時。儘管像 GPT-4V 或 Claude 這樣的模型可以詳細描述圖像或短片，但在需要根據長序列中特定時間間隔推斷事件

llm , 神經網絡 , 人工智能 , 視頻處理

Mar 19 2025

deephub - 融合AMD與NVIDIA GPU集羣的MLOps：異構計算環境中的分佈式訓練架構實踐

在深度學習的背景下，NVIDIA的CUDA與AMD的ROCm框架缺乏有效的互操作性，導致基礎設施資源利用率顯著降低。隨着模型規模不斷擴大而預算約束日益嚴格，2-3年更換一次GPU的傳統方式已不具可持續性。但是Pytorch的最近幾次的更新可以有效利用異構計算集羣，實現對所有可用GPU資源的充分調度，不受制於供應商限制。本文將深入探討如何混合AMD/NVIDIA GPU集羣以支持PyTor

神經網絡 , pytorch , 人工智能 , 分佈式系統 , 深度學習

Jan 10 2025

deephub - NeurIPS 2024最佳論文，擴散模型的創新替代：基於多尺度預測的視覺自迴歸架構

本文將詳細解讀NeurIPS 2024最佳論文："Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction（視覺自迴歸建模：基於下一尺度預測的可擴展圖像生成）"。該論文提出了視覺自迴歸建模（Visual Autoregressive Modeling，VAR）方法，在圖像生成領域實現了重

圖像處理 , 神經網絡 , 人工智能 , 深度學習

Dec 29 2024

deephub - Python環境管理的新選擇：UV和Pixi，高性能Python環境管理方案

近期Python生態系統發生了重要變化，特別是在包管理領域。Anaconda對其商業許可證政策進行了調整，要求大型非營利組織（員工超過200人）需要為使用其默認包倉庫的每位用户獲取商業許可。這一變化促使開發社區開始尋找更開放的解決方案，特別是考慮到Python本身及其大多數包都是開源的這一事實。 Python環境管理和包依賴處理一直是開發過程中的關鍵挑戰。傳統工具如virtualenv、pip和c

機器學習 , 人工智能 , 環境搭建 , Python

Dec 04 2024

deephub - 分佈式機器學習系統：設計原理、優化策略與實踐經驗

人工智能領域正在經歷一場深刻的變革。隨着深度學習模型的規模呈指數級增長，我們正面臨着前所未有的計算挑戰。當前最先進的語言模型動輒包含數千億個參數，這種規模的模型訓練已經遠遠超出了單機系統的處理能力。在這個背景下，分佈式機器學習系統已經成為支撐現代人工智能發展的關鍵基礎設施。分佈式機器學習的演進在深度學習早期，研究人員通常使用單個GPU就能完成模型訓練。隨着研究的深入，模型架構變得越來越複雜，參

機器學習 , 人工智能 , 分佈式系統 , Python

Nov 27 2024

deephub - 一份寫給數據工程師的 Polars 遷移指南：將 Pandas 速度提升 20 倍代碼重構實踐

在大數據處理領域，性能和效率始終是核心問題。 polars 作為新一代數據處理框架，通過利用Rust語言的底層實現和現代化的並行計算架構，在處理大規模數據集時展現出顯著的性能優勢。根據性能測試文章的數據顯示，在CSV文件讀取操作中， polars 的處理速度可達 pandas 的20倍。這種性能提升主要得益於其優化的內存管理機制和並行計算能力。本文將系統地介紹如何從 pandas 遷移到 po

機器學習 , 人工智能 , pandas , Python

Sep 22 2024

deephub - 使用GPU 加速 Polars：高效解決大規模數據問題

Polars 最近新開發了一個可以支持 GPU 加速計算的執行引擎。這個引擎可以對超過 100GB 的數據進行交互式操作能。本文將詳細討論 Polars 中DF的概念、GPU 加速如何與 Polars DF協同工作，以及使用新的 CUDA 驅動執行引擎可能帶來的性能提升。 Polars 核心概念 Polars 的核心功能是創建和操作DF，這些DF可以被視為具有高級功能的電子表格。以下是一個簡單的

機器學習 , 人工智能 , pandas , Python

Aug 17 2024

deephub - 將VAE用於時間序列：生成時間序列的合成數據

變分自編碼器(VAEs)是一種生成式人工智能,因其能夠創建逼真的圖像而備受關注,它們不僅可以應用在圖像上，也可以創建時間序列數據。標準VAE可以被改編以捕捉時間序列數據的週期性和順序模式,然後用於生成合成數據。本文將使用一維卷積層、策略性的步幅選擇、靈活的時間維度和季節性依賴的先驗來模擬温度數據。我們使用亞利桑那州菲尼克斯市50年的ERA5小時温度數據訓練了一個模型。為了生成有用的合成數據,它必

tensorflow , 神經網絡 , 人工智能 , 深度學習

Jul 07 2024

deephub - PyTorch中的多進程並行處理

PyTorch是一個流行的深度學習框架，一般情況下使用單個GPU進行計算時是十分方便的。但是當涉及到處理大規模數據和並行處理時，需要利用多個GPU。這時PyTorch就顯得不那麼方便，所以這篇文章我們將介紹如何利用torch.multiprocessing模塊，在PyTorch中實現高效的多進程處理。多進程是一種允許多個進程併發運行的方法，利用多個CPU內核和GPU進行並行計算。這可以大大提高

pytorch , 人工智能 , 深度學習 , 多進程

Jun 10 2024

deephub - 如何應對缺失值帶來的分佈變化？探索填充缺失值的最佳插補算法

本文將探討了缺失值插補的不同方法，並比較了它們在復原數據真實分佈方面的效果，處理插補是一個不確定性的問題，尤其是在樣本量較小或數據複雜性高時的挑戰，應選擇能夠適應數據分佈變化並準確插補缺失值的方法。我們假設存在一個潛在的分佈P，從中得出觀察值X。此外，還繪製了一個與X相同維數的0/1向量，我們稱這個向量為M，實際觀測到的數據向量X被M掩碼為X。我們觀測到聯合向量(X,M)的n個獨立同分布(i.i

機器學習 , 神經網絡 , r , 人工智能

Feb 24 2024

deephub - 20個改善編碼的Python異常處理技巧，讓你的代碼更高效

異常處理是寫好代碼的一個重要的方面，雖然許多開發人員都熟悉基本的try-except塊，但是有很多更深入的知識可以使異常處理更高效、更可讀和更python化。所以本文將介紹關於Python異常的20個可以顯著改善編碼的Python異常處理技巧，這些技巧可以讓你熟練的掌握Python的異常處理。 Python中的異常是在程序執行期間發生的破壞了程序指令的正常流程的事件。與其他編程語言一樣，Pytho

機器學習 , 異常處理 , Python

Feb 02 2024

deephub - 10個Pandas的高級技巧

Pandas是我們最常用的數據處理Python庫之一。儘管您可能已經與它共事多年，但可能還有許多您尚未探索的實用方法。我將向您展示一些可能未曾聽説但在數據整理方面非常實用的方法。我目前日常使用的是pandas 2.2.0，這是本文時可用的最新版本。 import pandas as pd import numpy as np print(pd.__version__) 1、agg 你

機器學習 , pandas , 數據分析 , Python

Dec 03 2023

deephub - 4個解決特定的任務的Pandas高效代碼

在本文中，我將分享4個在一行代碼中完成的Pandas操作。這些操作可以有效地解決特定的任務，並以一種好的方式給出結果。從列表中創建字典我有一份商品清單，我想看看它們的分佈情況。更具體地説：希望得到唯一值以及它們在列表中出現的次數。 Python字典是以這種格式存儲數據的好方法。鍵將是字典，值是出現的次數。這裏可以使用value_counts和to_dict函數，這項任務可以在一行代碼中完成

機器學習 , 人工智能 , pandas , Python

Nov 30 2023

deephub - Pandas中選擇和過濾數據的終極指南

Python pandas庫提供了幾種選擇和過濾數據的方法，如loc、iloc、[]括號操作符、query、isin、between等等本文將介紹使用pandas進行數據選擇和過濾的基本技術和函數。無論是需要提取特定的行或列，還是需要應用條件過濾，pandas都可以滿足需求。選擇列 loc[]:根據標籤選擇行和列。df.row_label loc, column_label] 也可以使用lo

機器學習 , 人工智能 , pandas , 數據分析 , Python

Oct 14 2023

deephub - 向量化操作簡介和Pandas、Numpy示例

Pandas是一種流行的用於數據操作的Python庫，它提供了一種稱為“向量化”的強大技術可以有效地將操作應用於整個列或數據系列，從而消除了顯式循環的需要。在本文中，我們將探討什麼是向量化，以及它如何簡化數據分析任務。什麼是向量化? 向量化是將操作應用於整個數組或數據系列的過程，而不是逐個遍歷每個元素。在Pandas中可以對整個列或Series執行操作，而無需編寫顯式循環。這種高效的方法利用了

機器學習 , numpy , 人工智能 , pandas , Python

Sep 05 2023

deephub - Pandas DataFrame 數據存儲格式比較

Pandas 支持多種存儲格式，在本文中將對不同類型存儲格式下的Pandas Dataframe的讀取速度、寫入速度和大小的進行測試對比。創建測試Dataframe 首先創建一個包含不同類型數據的測試Pandas Dataframe。 import pandas as pd import random import string import numpy as np # Conf

機器學習 , 人工智能 , pandas , Python

Sep 03 2023

deephub - 15個基本且常用Pandas代碼片段

Pandas提供了強大的數據操作和分析功能，是數據科學的日常基本工具。在本文中，我們將介紹最常用的15個Pandas代碼片段。這些片段將幫助簡化數據分析任務，從數據集中提取有價值的見解。 1、過濾數據 Pandas提供了多種方法來過濾數據。 import pandas as pd # Create a DataFrame data = {'Name': ['Alice', 'Bob',

機器學習 , 人工智能 , pandas , 數據分析

Sep 01 2023

deephub - Pandas 2.1發佈了

2023年3月1日，Pandas 發佈了2.0版本。6個月後（8月30日），更新了新的2.1版。讓我們看看他有什麼重要的更新。更好的PyArrow支持 PyArrow是在Panda 2.0中新加入的後端，對於大數據來説提供了優於NumPy的性能。Pandas 2.1增強了對PyArrow的支持。官方在這次更新中使用最大的高亮字體宣佈 PyArrow 將是 Pandas 3.0的基礎依賴，這説明P

機器學習 , pandas , Python

Aug 23 2023

deephub - Pandas字符串操作的各種方法速度測試

由於LLM的發展，很多的數據集都是以DF的形式發佈的，所以通過Pandas操作字符串的要求變得越來越高了，所以本文將對字符串操作方法進行基準測試，看看它們是如何影響pandas的性能的。因為一旦Pandas在處理數據時超過一定限制，它們的行為就會很奇怪。我們用Faker創建了一個100,000行的測試數據。測試方法安裝： !pip install faker 生成測試數據的方法很簡答：

機器學習 , 人工智能 , pandas , Python

Aug 15 2023

deephub - 使用Pandas進行數據清理的入門示例

數據清理是數據分析過程中的關鍵步驟，它涉及識別缺失值、重複行、異常值和不正確的數據類型。獲得乾淨可靠的數據對於準確的分析和建模非常重要。本文將介紹以下6個經常使用的數據清理操作：檢查缺失值、檢查重複行、處理離羣值、檢查所有列的數據類型、刪除不必要的列、數據不一致處理第一步，讓我們導入庫和數據集。 # Import libraries import pandas as pd # Re

機器學習 , 數據清洗 , pandas , Python

Aug 07 2023

deephub - 4個將Pandas換為交互式表格Python包

Pandas是我們日常處理表格數據最常用的包，但是對於數據分析來説，Pandas的DataFrame還不夠直觀，所以今天我們將介紹4個Python包，可以將Pandas的DataFrame轉換交互式表格，讓我們可以直接在上面進行數據分析的操作。 Pivottablejs Pivottablejs是一個通過IPython widgets集成到Python中的JavaScript庫，允許用户直接從Da

機器學習 , 人工智能 , pandas , Python

deephub 博客

博客 / 列表

deephub - 解決語義搜索痛點，基於對比學習的領域特定文本嵌入模型微調實踐

deephub - Pandas數據合併：10種高效連接技巧與常見問題

deephub - ReSearch：基於強化學習的大語言模型推理搜索框架

deephub - VideoMind：Chain-of-LoRA突破時間盲區讓AI真正看懂長視頻

deephub - 融合AMD與NVIDIA GPU集羣的MLOps：異構計算環境中的分佈式訓練架構實踐

deephub - NeurIPS 2024最佳論文，擴散模型的創新替代：基於多尺度預測的視覺自迴歸架構

deephub - Python環境管理的新選擇：UV和Pixi，高性能Python環境管理方案

deephub - 分佈式機器學習系統：設計原理、優化策略與實踐經驗

deephub - 一份寫給數據工程師的 Polars 遷移指南：將 Pandas 速度提升 20 倍代碼重構實踐

deephub - 使用GPU 加速 Polars：高效解決大規模數據問題

deephub - 將VAE用於時間序列：生成時間序列的合成數據

deephub - PyTorch中的多進程並行處理

deephub - 如何應對缺失值帶來的分佈變化？探索填充缺失值的最佳插補算法

deephub - 20個改善編碼的Python異常處理技巧，讓你的代碼更高效

deephub - 10個Pandas的高級技巧

deephub - 4個解決特定的任務的Pandas高效代碼

deephub - Pandas中選擇和過濾數據的終極指南

deephub - 向量化操作簡介和Pandas、Numpy示例

deephub - Pandas DataFrame 數據存儲格式比較

deephub - 15個基本且常用Pandas代碼片段

deephub - Pandas 2.1發佈了

deephub - Pandas字符串操作的各種方法速度測試

deephub - 使用Pandas進行數據清理的入門示例

deephub - 4個將Pandas換為交互式表格Python包

Product

Company

Support

Company