tag 數據

標籤
貢獻758
567
05:56 PM · Oct 25 ,2025

@數據 / 博客 RSS 訂閱

合合信息解決方案 - 解析出的表格數據結構混亂,有什麼工具能處理嗎?

傳統OCR工具處理表格數據的相關痛點 信息化工作會議強調推動信息化與工業化深度融合,推進“人工智能+製造”專項行動,培育重點行業智能體,深化中小企業數字化賦能,需依託高質量數據支撐轉型落地。 數據作為數字化轉型的核心要素,其結構化處理效率直接影響轉型成效。但在製造、辦公、企業運營等真實場景中,文檔元素普遍缺乏標準化與格式化特徵,雙欄表格、無線表格等複雜

機器學習 , 數據 , 人工智能 , 文檔解析 , 跨行合併

收藏 評論

mob64ca141677f9 - Stanford CoreNLP提取關鍵詞

  1.關鍵字提取:   關鍵詞抽取就是從文本里面把跟這篇文檔意義最相關的一些詞抽取出來。這個可以追溯到文獻檢索初期,當時還不支持全文搜索的時候,關鍵詞就可以作為搜索這篇論文的詞語。因此,目前依然可以在論文中看到關鍵詞這一項。   除了這些,關鍵詞還可以在文本聚類、分類、自動摘要等領域中有着重要的作用。比如在聚類時將關鍵詞相似的幾篇文檔看成一個團簇,可以大大提

數據 , 詞頻 , NLP , 權重 , 人工智能

收藏 評論

lu952450497 - 離線數倉與實時數倉的應用場景與對比

數據倉庫的建設從傳統離線架構逐步演進到實時架構,是企業數字化能力成熟的重要階段。離線數倉強調批處理、週期加工、結構穩定和歷史追溯;實時數倉強調秒級至分鐘級數據更新、事件驅動和業務反饋閉環。兩者不是互斥關係,而是面向不同業務訴求的差異化建設方向。 一、離線數倉的特徵 核心特徵 離線數倉基於批處理思想: 每日/每小時調度任務產出數據 以 T+

批處理 , 大數據 , 數據 , 離線 , 數據倉庫

收藏 評論

clklog - ClkLog埋點系統基於ClickHouse的百萬日活測試報告

背景介紹 自 ClkLog 上線以來,我們不斷吸納用户需求,提升產品的支持能力。今年下半年,我們遇到了日活躍用户數達到百萬級別的客户。為了給 ClkLog 用户提供可靠的技術建議和解決方案,同時也為了節省成本,在Clickhouse官方支持下,我們在阿里雲上對 ClickHouse 社區版、企業版進行了詳細測試和成本分析。 本次測試主要目的是評估 ClkLog 在不同日活躍用户量級(一萬、十萬、百

sdk , 數據 , 開源 , 數據分析 , 用户體驗

收藏 評論

編程小匠人 - 我“對地觀測大數據應對全球變化”獲聯合國獎項 - 靈玖lingjoin的個人空間 -

在當今的石油與天然氣勘探開發中,隨鑽測井技術已成為提高鑽井效率、降低開發風險和實現複雜油氣藏精準開採的核心利器。其中,定向測斜功能如同給鑽頭裝上了“GPS導航”,實時指引其在地層中穿行。而動態旋轉定向傳感器,正是這項功能中一項革命性的技術突破,它徹底改變了傳統的測量模式,將定向鑽井的精準性與效率提升到了全新高度。 一、 核心功能:從“靜態瞄準”到“動態鎖定”

陀螺儀 , 文心一言 , 數據 , aigc , 數據處理

收藏 評論

mob64ca1414098d - Etcd的使用 - Etcd集羣安裝 - 《Go學習手冊(For learning Go Tutorial)》

一、集羣檢查 注意:etcdctl 命令如果沒有顯式指定--endpoints參數,它會使用默認配置,而這個默認配置可能無法連接到集羣的所有節點,結果是隻會得到當前節點的信息 1、查看集羣成員列表 etcdctl member list 2、查看集羣狀態 etcdctl --endpoint

數據 , 取值 , 後端開發 , 鍵值 , Python

收藏 評論

風華正茂的AI - aix鏡像一個邏輯卷

存儲管理、LVM和文件系統(下) 導航:   管理邏輯卷   文件系統 五、管理邏輯卷 一個邏輯卷映射一個或多個物理卷,具體取決於您希望維護的數據副本的數量 單個邏輯卷副本,表示存在一個邏輯分區到物理分區的映射 添加邏輯卷 使用mklv命令創建邏輯卷,該命令指定邏輯卷的名稱並定義其特徵,包括要分配的邏輯分區數量(默認

文件系統 , 數據 , 雲計算 , aix鏡像一個邏輯卷 , 邏輯卷 , 雲原生

收藏 評論

karen - 併發與並行

引言:並行與併發的時代背景 在當今數字化時代,計算機系統面臨着前所未有的性能挑戰。從移動設備到超級計算機,從個人應用到企業級系統,對計算能力的需求呈指數級增長。在這樣的背景下,並行和併發技術成為提升系統性能的關鍵支柱。 1.1 多核處理器的普及 隨着摩爾定律的持續演進,單核處理器的性能提升逐漸放緩,而多核處理器已成為主流。從 2005

並行計算 , 數據 , 後端開發 , JAVA , 多核 , Python

收藏 評論

AI算法專家李智華 - deepseek-r1-distill-qwen-32B 模型技術過程——做了SFT

DeepSeek-R1-Distill-Qwen-32B 是 DeepSeek 團隊通過“知識蒸餾”(Knowledge Distillation)技術創造出來的。 簡單來説,它的誕生過程並非像傳統的“從零訓練”或單純的“繼續預訓練”,而是**“大號學霸(DeepSeek-R1)手把手教小號(Qwen-32B)做題”**的過程。 以下是其核心

sed , 強化學習 , 數據 , 前端開發 , Javascript

收藏 評論

davisl - 前端- Rust入門系列之引用和借用 - Rust學習分享

Rust 借用與引用實戰 引言 借用是 Rust 中使用值而不獲取其所有權的方式。通過引用,我們可以在不轉移所有權的情況下訪問數據。Rust 的借用檢查器確保引用始終有效。 借用規則 借用遵循兩條關鍵規則: 在任意給定時間,要麼只能有一個可變引用,要麼只能有多個不可變引用 引用必須總是有效的

數據 , rust , 緩存 , 前端開發 , Javascript

收藏 評論

kcoufee - 用NVIDIA-TensorRT構造深度神經網絡

本文介紹瞭如何結合NVIDIA Nemotron開放模型與圖形數據庫,構建一個能夠從非結構化IT支持工單數據中挖掘洞見、追蹤關聯關係的AI智能體系統。該系統包含模塊化數據處理管道、上下文增強、根因分析、洞見生成以及自動化警報與交付等核心階段,並通過交互式儀表板提供按需摘要功能。 現代組織通過工單系統、事件報告、服務請求、支持升級等產生大量的運營數據。這些工單通常包含有關係統

it , 數據 , 前端開發 , 結構化 , Javascript

收藏 評論

IT狼人9號 - DEM導出三維模型

一、內嵌ORM框架 概念:對象關係映射,即通過創建模型類,對象與數據庫的映射、關聯。 例如:要創建個模型類映射數據庫圖書表 二、模型類生成表 1)生成遷移文件 命令:python manage.py makemigrations 2)執行遷移生成

機器學習 , 數據 , 人工智能 , sqlite , DEM導出三維模型 , 前端 , Python

收藏 評論

Fabarta - 破局AI數據泄密風險:楓清科技以知識引擎+大模型構建企業本地數據智能安全底座

近日,國家安全部披露的一則案例引發廣泛關注:個別單位違規使用開源框架搭建聯網大模型,致使攻擊者可未經授權自由訪問內部網絡,最終引發數據泄露及安全風險。在企業加速AI落地的進程中,平衡技術創新與數據安全是繞不開的核心命題。而楓清科技憑藉“自研知識引擎+行業大模型”的雙輪驅動模式,聚焦企業本地數據安全與智能應用,構建起全鏈路安全閉環,成為其產品的核心競爭力。 針對企業數據安全防護需

數據 , 數據安全 , 人工智能 , 深度學習 , 模態

收藏 評論

小雨青年 - 打破資源孤島:離線混部技術如何重塑大數據處理效能

在大數據處理的真實世界裏,業務負載呈現出一種極具規律卻又令人頭疼的“潮汐現象”。隨着人類活動週期的變化,企業的在線業務通常在白天迎來流量洪峯,實時查詢、流處理系統以及面向用户的 API 接口時刻處於滿負荷運轉狀態。然而,當夜幕降臨,在線流量退去,龐大的服務器集羣往往陷入了沉寂。與此同時,數據團隊的離線業務,如大規模的 ETL 數據清洗、批量報表分析以及複雜的模型訓練,卻往往要在深

kubernetes , 優先級 , 數據 , 雲計算 , 離線

收藏 評論

修己xj - 從“死記硬背”到“靈活應用”:詳解RAG如何讓AI真正理解並回答問題

當AI不再僅僅是“復讀機”,而是能夠結合最新信息提供準確回答的智能助手——這就是RAG技術帶來的變革。 在人工智能快速發展的今天,我們常常遇到這樣的困境:大型語言模型如GPT-4擁有海量知識,卻無法獲取最新的信息;它能寫出優美的文章,卻無法準確回答你公司內部文檔中的具體問題。這就是所謂的“知識截止日期”問題——模型只能基於訓練時的數據進行回答。 但有一項技術正在徹底

數據 , 搜索 , 語言模型 , aigc , llama

收藏 評論

數據小探 - 東軟大數據hadoop實訓 東軟 數據分析

你腦海中的數據可視化是啥樣? 是這樣的? 插圖0001.jpg886x476 149 KB 我們能為你提供的數據可視化 是這樣的 插圖0002.gif903x510 1.95 MB 還可以是這樣的 插圖0003加快版.gif1277x700 360 KB 以及這樣的 插圖0004.gif1361

東軟大數據hadoop實訓 , 數據集 , 大數據 , 數據 , hadoop , 數據可視化

收藏 評論

lenglingx - Doris安裝

背景説明: 關於doris本身今天不做過多的介紹,主要説明下doris和MySQL之間的恩怨情仇,mysql主要用來幫助doris記錄元數據的,類似於hive和mysql的關係,Doris用它來記錄整個集羣的結構和信息,主要包括以下方面: 數據庫和表的Schema信息 數據庫名、表名、列名、列的數據類型。 分區信息、分桶信息、

大數據 , 數據 , MySQL , 數據倉庫 , apache

收藏 評論

步_步_為營 - 深入理解IAsyncEnumerable<T>:異步迭代的底層實現與應用優化

深入理解IAsyncEnumerableT:異步迭代的底層實現與應用優化 在.NET異步編程領域,IAsyncEnumerableT 提供了一種異步迭代數據的方式,尤其適用於處理大量數據或涉及I/O操作的場景,避免阻塞線程,提升應用程序的響應性和性能。深入理解其底層實現,有助於開發者編寫高效且正確的異步代碼。 技術背景 在傳統的同步編程中,IEnumerableT 用於順序訪

System , 數據 , 迭代 , 前端開發 , Javascript

收藏 評論

上海拔俗網絡 - 智能AI大模型費控系統:給企業請了個“鐵面賬房先生”

想象一下這樣的場景:銷售部的李經理提交了一筆宴請客户的開銷,系統自動彈出提醒——“本次人均消費超出公司標準23%,且在系統建議的簽約餐廳3公里範圍內另有3家符合標準的備選餐廳,是否確認提交?”與此同時,財務部的小王收到系統生成的預警報告:“本月華北區差旅費同比上升40%,主要原因為京津線路高鐵票購票時間平均晚於建議時間48小時,導致二等座售罄被迫購買一等座。” 這就是智能AI大模型費

業務邏輯 , 數據 , NLP , 人工智能 , 核心技術

收藏 評論

Aceryt - 淺顯易懂的機器學習(七)—— 決策樹分類

在機器學習的分類算法裏,有一類算法特別 “直觀”—— 它不用複雜的概率計算,也不用繞人的公式,而是像我們日常生活中的 “判斷流程” 一樣,一步一步得出結論。它就是決策樹(Decision Tree)。 本文會從一個真實的銀行貸款場景切入,幫你看懂決策樹的判斷邏輯,再抽象出決策樹的核心定義和結構,終於講清它如何幫我們解決分類問題。全程無複雜公式,純入門友好,看完就能學會 “用

機器學習 , 決策樹 , 服務器 , 數據 , Windows Server

收藏 評論

宇宙之一粟 - 讀書筆記之數據密集型應用的可靠性

宇宙之一粟讀書筆記之《數據密集型應用系統設計》,本筆記的內容來自《數據密集型應用系統設計》,該書豆瓣評分高達 9.7。 什麼是數據密集型應用 數據密集型應用,英文名 Data-Intensive Application。 數據密集型應用(data-intensive applications)正在通過使用這些技術進步來推動可能性的邊界。一個應用被稱為數據密集型的,如果數據是其主要挑戰(數據量,數

數據 , 數據庫設計 , 讀書筆記 , 後端

收藏 評論

mob64ca12f028ff - stable diffusion 生成時no axes defined

在使用 Stable Diffusion 進行圖像生成時,用户可能會遇到一個常見錯誤提示:“no axes defined”。這個問題通常表明在輸出圖像時缺少必要的座標軸信息,這可能是由於配置文件的設置錯誤或模型不兼容造成的。本文將探討該問題的解決步驟及相關技術原理。 背景描述 隨着生成對抗網絡(GAN)及變換器模型在圖像合成領域的廣泛應用,Stable Diffusion 作為

數據 , 加載 , aigc , ci

收藏 評論

上海拔俗網絡 - AI大模型農業智能管控平台:給農田裝“智慧內核”,種田靠技術

傳統農業裏,澆水看土幹、施肥憑經驗、病蟲害靠眼辨,不僅累還難控效果。而AI大模型農業智能管控平台的出現,用實打實的技術重構種田邏輯,讓“看天吃飯”變成“知天而作”,把農業生產變成精準可控的技術活。 這個平台的技術核心是“數據採集-智能分析-自動執行”的閉環。地裏遍佈的物聯網傳感器是“感知觸角”,能實時捕捉土壤濕度、温度、pH值,還有作物葉片葉綠素、水分含量,數據誤差控制在±3%以內,

無人機 , 數據 , 物聯網 , NLP , 人工智能

收藏 評論

上海拔俗網絡 - AI 醫療技術智能評估系統:幫醫院選對 “醫療好幫手”

醫院引進新的醫療技術時,常面臨 “難判斷效果” 的困擾:比如新的影像診斷設備,單看參數表難知實際用着順不順手;新的治療方案,靠人工統計療效耗時又易出錯。而 AI 醫療技術智能評估系統,就像給醫院配了位 “技術評估專家”,靠三項核心技術,讓醫療技術選型和效果判斷更準、更快。 第一項是全場景數據抓取技術,讓評估 “不缺關鍵信息”。傳統評估往往只看技術的核心性能,比如診斷設備的準確率,卻忽

數據 , NLP , 人工智能 , 數據抓取 , 維護費用

收藏 評論