tag 文檔

標籤
貢獻19
127
07:48 AM · Nov 04 ,2025

@文檔 / 博客 RSS 訂閱

商湯萬象開發者 - 技術拆解 | 表格解析(下):從數據準備到模型訓練的全流程實戰詳解

在當今數據驅動的時代,表格數據作為信息承載的重要形式,廣泛存在於各類商業場景中。從財務報表到保險理賠單,從銷售記錄到客户信息,表格無處不在。表格不僅僅是文本的堆砌,它包含着複雜的空間邏輯關係。如何讓機器真正理解表格數據?這是金融、財務、保險等領域智能化轉型的關鍵挑戰。 本文將深入探討表格解析的數據準備和模型訓練全流程,為讀者呈現一套完整可行的解決方案。 數據準備:質量決定上限 數據準備是整個表格解

llm , 文檔

收藏 評論

謙虛好學的山寨機_bS4sGd - linux的 DBI/DBD 標準化安裝文檔A

一、安裝DBI DBI(Database Interface)是perl連接數據庫的接口。其是perl連接數據庫的最優 方法,他支持包括Orcale,Sybase,mysql,db2等絕大多數的數據庫,下面將簡要 介紹其安裝方法。 1.1解壓 tar -zxvf DBI-1.616_901.tar.gz 1.2安裝依賴 yum install perl-ExtUtil

文檔

收藏 評論

蛋先生DX - RAG 切片利器 LumberChunker 是如何智能地把文檔切割成 LLM 愛吃的塊

丹尼爾:蛋兄,問個問題唄。RAG 裏的文檔應該怎麼切割比較好呢?按固定的字符數或詞數?按句?按段落?加個重疊窗口?感覺這些都太簡單粗暴,容易把相關的內容給拆散了 蛋先生:恩,你説得對。這些方法一刀切,確實沒辦法考慮上下文的語義關係。現在大模型越來越強大,完全可以藉助它們的能力,比如 LumberChunker 丹尼爾:LumberChunker? 蛋先生:這個名字起得非常有意思。"Lumber"

llm , ai開發 , 語義化 , 人工智能 , 文檔

收藏 評論

Eolink - Eolink Apikit 快速發起 API 測試,一鍵生成測試數據

我們在測試接口時,通常需要先創建 API 文檔,再根據 API 文檔生成測試用例。未創建該接口文檔,僅臨時調試接口,Eolink Apikit 支持創建 API 快速測試頁面,輸入接口相關的信息即可進行快速測試。 Eolink Apikit 支持操作數據庫,API 測試時,可以一鍵生成測試請求數據。這可以減少數據輸入步驟,提高調試接口效率。 發起快速測試 功能入口:API 管理應用 - 選

mock , 數據 , API , 測試 , 文檔

收藏 評論

海豚調度 - 收藏!Apache DolphinScheduler 3.3.2 超全配置指南來了,一張表搞定調優

前言 本文系統梳理 Apache DolphinScheduler 3.3.2 各服務(master/worker/api/alert/standalone)目錄、JVM、數據源、註冊中心、存儲、Quartz、環境變量及日誌等關鍵配置項、默認值與作用,為部署調優提供一站式參考。 目錄結構 ├── LICENSE │ ├── NOTICE │ ├── licenses

dolphinscheduler , 任務調度 , 開源 , 文檔

收藏 評論

大丸子 - 用Python添加、讀取和刪除Word文檔屬性

在Python中處理Word文檔時,對文檔屬性進行操作是一項重要的任務。文檔屬性主要分為內置屬性(如標題、作者等)和自定義屬性(用户根據自身需求定義的屬性)。合理地管理這些屬性,能夠提升文檔管理效率、優化信息檢索功能,並確保文檔數據的準確性與安全性。本文將介紹如何使用Python實現對Word文檔屬性的添加、讀取和刪除操作,包括內置文檔屬性和自定義文檔屬性。 用Python添加文檔屬性到Wor

word , 文檔管理工具 , 屬性 , 文檔 , Python

收藏 評論

程序員小鋒 - 基於oracle linux的 DBI/DBD 標準化安裝文檔(二)

一、安裝DBI DBI(Database Interface)是perl連接數據庫的接口。其是perl連接數據庫的最優 方法,他支持包括Orcale,Sybase,mysql,db2等絕大多數的數據庫,下面將簡要 介紹其安裝方法。 1.1解壓 tar -zxvf DBI-1.616_901.tar.gz 1.2安裝依賴 yum install perl-ExtUtil

文檔

收藏 評論

合合技術團隊 - 用户的聲音 | 文檔結構化信息提取方案測評:LLM、開源模型部署與雲端API,誰是合適選擇?

文檔預處理之文本化 近日,我們收到來自專業用户的使用心得,通過測試淺析結構化信息提取技術,輔助完成技術選型。結構化信息提取的重要性數據作為大模型時代的核心生產資料,其結構化處理能力直接影響AI系統的實用價值。 結構化信息提取的重要性 數據作為大模型時代的核心生產資料,其結構化處理能力直接影響AI系統的實用價值。儘管知識圖譜、RAG等技術依賴海量文本資源,但現實中的歷史檔案、法律文書等重要數據多以掃

llm , 大數據 , 人工智能 , 文檔

收藏 評論

大丸子 - 使用 Python 在 Word 文檔中插入頁眉、頁腳

在企業日常工作中,專業的文檔排版對於報告、計劃書或彙報材料至關重要。頁眉頁腳不僅承載標題、公司名稱、日期信息,還能插入公司 Logo,使文檔更具規範性和識別度。手動操作容易出錯且效率低,而 Python 提供了自動化生成 Word 文檔的能力。本文將展示如何創建帶頁眉、頁腳和圖片的 Word 文檔,結合實際業務場景,構建標準化報告模板。 本文所用示例基於 Free Spire.Doc for Py

word , 文檔生成 , 頁腳 , 文檔 , Python

收藏 評論

合合技術團隊 - 合合信息線下技術交流日報名啓動!超多福利等你來領!

快到年終啦,合合信息打算和上海的新老朋友進行一場零距離聚會!我們在上海1927魯迅與內山紀念書局精心策劃了一場技術交流見面會,活動現場可以體驗好玩的黑科技,在思想的交流與碰撞中結交新朋友,探索技術產品熱門議題。參會還可帶走敲多豐富的伴手禮~ 詳細活動安排請戳下圖,點擊合合信息KOL線下活動報名 即可報名,報名成功後我們會有專人聯繫。歡迎對合合信息感興趣的開發者朋友們報名積極參與,期待在現場與您相見

圖像識別 , 科技 , 技術分享 , 活動 , 文檔

收藏 評論

程序員小鋒 - 基於oracle linux的 DBI/DBD 標準化安裝文檔(二)

一、安裝DBI DBI(Database Interface)是perl連接數據庫的接口。其是perl連接數據庫的最優 方法,他支持包括Orcale,Sybase,mysql,db2等絕大多數的數據庫,下面將簡要 介紹其安裝方法。 1.1解壓 tar -zxvf DBI-1.616_901.tar.gz 1.2安裝依賴 yum install perl-ExtUtil

文檔

收藏 評論

合合技術團隊 - TextIn文檔解析表格處理模型優化,顯著提升表格解析性能

近期,TextIn通用文檔解析最新推出表格處理優化版本。 此前版本中,表格解析處理針對有線表格與無線表格預先分類,並基於框線進行模型預測。在運行過程中,我們發現,分類錯誤問題對錶格解析準確率有負面影響。 本次優化主要改善了表格識別效果,以統一方案替代有線表格與無線表格分類處理方法,減少了級聯損失,大幅度提升表格全對率。 通用文檔解析鏈接:https://www.textin.com/market/

表格 , 人工智能 , 文檔 , 圖像

收藏 評論

商湯萬象開發者 - 技術拆解 | 表格解析(上):企業數字化與AI應用流程中的重要基礎支撐

上一期我們向大家介紹了商湯自研的智能文檔解析 UniParse,歡迎大家試用!本期開始,我們將對 UniParse 中涉及的技術點進行逐一拆解,希望能幫助大家更好地理解和使用我們的產品~ 本期和下期的分享主題都將圍繞“表格解析”展開,技術細節,一探究竟! 什麼是表格解析 表格解析是將非結構化的表格圖像(如掃描文檔、照片或PDF中的表格)轉為機器可讀、可理解的結構化數據的過程。具體而言,它旨在將圖像

表格 , 人工智能 , 檢索系統 , 文檔

收藏 評論

墨鬆 - VitePress、Hexo、Docusaurus,哪個最適合你的靜態網站?

在選擇合適的靜態網站工具時,Hexo、VitePress、Docusaurus 是三個備受關注的選項,那麼到底哪一個框架更適合你呢? 本文從使用場景、社區生態、功能、性能、擴展性這五個方面,幫你全方位分析各個框架的優缺點,以便為你的技術選型提供參考。 1、應用場景 Hexo, 官方定位自己是 "快速、簡潔且高效的博客框架" , 但是它同樣適合構建簡單的文檔網站,它具有簡單易用的特點,適合那些

vite , 網站 , 文檔 , vitepress , 前端

收藏 評論

大丸子 - 使用Python在Word文檔中添加、替換和刪除圖片

通過Python編程實現Word文檔中圖片的動態管理,可精準實現圖片的插入定位、條件化替換及冗餘元素刪除,尤其適用於需要定期生成標準化Word文檔。這種自動化方案不僅顯著降低人工操作導致的格式錯位、版本混亂等風險,還能通過API接口與數據庫、圖像處理系統無縫集成,為構建端到端的智能文檔生成體系奠定基礎。本文將介紹如何使用Python在Word文檔中添加、替換和刪除圖片。 用Python插入圖片

word , 圖片 , 圖片處理 , 文檔 , Python

收藏 評論

沈唁 - 初夏上新!Docsify 迎來 v5.0.0-rc.1 重磅發佈

在中國傳統曆法中,五月初一象徵着初夏的啓程,也寓意着新的成長與蜕變。今天,我們很高興地宣佈 —— Docsify v5.0.0-rc.1 版本發佈! 在延續零構建、即寫即部署理念的同時,Docsify 迎來了全新的樣式設計、更友好的可訪問性以及更穩健的插件機制。 可以通過訪問 http://preview.docsifyjs.org/ 進行體驗。 那麼,這個版本有哪些值得關注的亮點?我們為你準備了

docsify , Css , 文檔 , Javascript , Markdown

收藏 評論

英勇無比的羽毛球 - 智能文檔自動化: Zoho Projects和Zoho Writer的集成指南

大家好,自定義函數是一種可用於自動化流程的軟件代碼,它允許您自動發送通知、調用Webhook或在觸發工作流規則後立即執行邏輯。因此自定義函數操作可以實現自動化複雜任務和計算。 在本文中,我將介紹一個具體的用例,演示Zoho Projects與Zoho Writer之間的集成。 產品演示 用例: 將Zoho Projects中的數據合併到Zoho Writer中的預定義模板中。 自動生成可填寫

函數 , 集成 , 文檔

收藏 評論

合合技術團隊 - 所見即所得,賦能RAG:PDF解析裏的段落識別與閲讀順序還原

前幾天,有一位用户使用OCR產品識別多欄論文後向我們詢問:要怎麼解決不合適的斷句、分段以及錯誤閲讀順序的問題? 我們用一個相似案例為大家直觀展示這位用户遇到的情況。 如圖中的多欄期刊,如果用OCR識別,或直接在一些辦公軟件對文字進行復制黏貼,我們就會得到右側的效果——按PDF排版而不是語義進行換行分段,對多欄文字直接從左向右排布,得到完全不通順的文字段落。 顯然這樣的效果是無法接受的。 於

ocr , 人工智能 , 文檔

收藏 評論

海的盡頭 - APICloud 實現文檔下載和預覽功能

文檔下載是很多app,尤其是企業應用中常用的功能。使用APICloud開發app時,可以使用api.download方法實現下載;預覽文檔可以使用superFile 模塊。superFile 模塊封裝了基於騰訊瀏覽服務TBS,使用X5Webkit內核,實現文件的展示功能,支持多種文件格式(PDF、Word、Execl、TXT、PPT)。 在項目中添加superFile模塊: 然後編譯自定義loa

下載 , app開發 , 文檔 , apicloud

收藏 評論

大丸子 - 如何在Java中實現Word文檔打印功能

Java作為一種廣泛使用的編程語言,在企業級應用開發中佔據着重要角色。隨着業務流程自動化需求的增長,直接通過程序控制Word文檔的打印變得越來越重要。這不僅能夠提高工作效率、減少人為錯誤,還能滿足特定場景下的定製化需求,比如批量生成報告後自動打印,或是根據用户操作觸發特定文檔的即時輸出。掌握如何在Java程序中實現Word文檔的打印,對於開發者來説意味着能夠為用户提供更加豐富且便捷的服務體驗。本文

打印功能 , word , JAVA , 打印 , 文檔

收藏 評論

Eolink - Eolink Apikit 如何生成與導出接口文檔?

在 API 研發管理產品中,幾乎所有的協作工作都是圍繞着 API 文檔進行的。 採用文檔驅動的協作模式會比先開發、後維護文檔的方式更好,團隊協作效率和產品質量都能得到提高。基於文檔來進行工作,使用文檔驅動方式可以降低大量無意義的溝通成本。 創建了 API 文檔之後,可以隨時查看 API 的改動情況、根據 API 文檔發起 API 測試、編寫 API 測試用例、使用 Mock API 等。 如下圖,

mock , websocket , API , HTTP , 文檔

收藏 評論

lingyuli - 深度學習 數據域模型

一個軟件項目的測試,要測試該項目的各個方面,根據測試內容的不同,測試的分類也不同。一般常用的測試可以分為以下幾種: 功能測試,逐個測試每個功能,直到可以確信該功能沒有任何問題。白盒功能測試通常叫做單元測試,幾種測試可以看到的代碼的功能。黑盒功能測試關注永和可以做或選擇的事情。在涉及到複雜的功能時,要先做好每個簡單功能的測試。

測試 , 單元測試 , 人工智能 , 深度學習 , 文檔 , 產品 , 深度學習 數據域模型

收藏 評論

網絡安全俠 - steam 容器使用命令

  本文檔深入分析了std::deque,並提供了一個指導思想:當考慮到內存分配和執行性能的時候,使用std::deque要比std::vector好。   介紹   本文深入地研究了std::deque 容器。本文將討論在一些情況下使用deque 比vector更好。讀完這篇文章後讀者應該能夠理解在容量增長

雲計算 , c++ , 雲原生 , 文檔 , c , steam 容器使用命令 , vector

收藏 評論

大丸子 - 用Python移除Word文檔中的空白行

空白段落不僅會破壞文檔結構的嚴謹性,導致排版混亂、可讀性降低,還可能對自動化文本分析、數據提取或格式轉換等後續流程造成干擾。手動刪除方式在面對數百頁文檔或週期性維護需求時,既耗時又易產生人為疏漏,而通過Python同編程手段實現自動化處理,則能顯著提升操作精度與流程標準化程度。本文將介紹如何使用Python批量刪除Word文檔中的空白行。 本文所使用的方法需要用到免費的Free Spire.Doc

word , 文檔管理工具 , 文檔生成 , 文檔 , Python

收藏 評論