tag 大數據

標籤
貢獻412
436
05:15 PM · Oct 25 ,2025

@大數據 / 博客 RSS 訂閱

goody - git倉庫清理瘦身解決 .git文件夾過大的問題_git 清理

有時候git項目源文件明明不大,可能就1M左右,然而拉取卻很慢,整體佔用空間達到幾十上百M,查看提交記錄,發現是有人誤提交了編譯後的target包中的jar包,後來發現誤傳又刪除了。 在 GitLab 中,即使刪除了大文件,它們的歷史記錄仍會保留在倉庫中,導致 .pack 文件過大,影響拉取代碼的速度。要徹底刪除這些大文件的歷史記錄,可以使用 gi

歷史記錄 , elasticsearch , 大數據 , gitlab , 前端開發 , Git , Javascript

收藏 評論

ApacheFlink - Flink Agents:基於Apache Flink的事件驅動AI智能體框架

本文基於 Apache Flink PMC成員宋辛童在 Community Over Code Asia 2025 Streaming 專題技術分享中的演講內容整理而成,詳細介紹了Flink Agents項目的技術背景、架構設計和應用前景。 在人工智能技術快速發展的今天,AI應用從簡單的對話交互正在向更加複雜和智能化的方向演進。Apache Flink社區最近推出了一個全新的項目——Flink A

大數據 , flink , 實時計算

收藏 評論

雲端創新者 - hadoop電影網站用户影評分析的項目

MovieWeb是一個電影相關的網站,它提供的功能包括搜索電影信息、排名或者電影明星資料等。它擁有10000部電影的信息,70000個用户,和超過1千萬的電影評分。借用它的搜索目錄,用户可以通過類型分類、排名和片名瀏覽等方式檢索電影。但如何解決電影智能推薦的問題呢?近日MongoDB分享了他們結合Hadoop的經驗。 MovieWeb基於Pytho

hadoop電影網站用户影評分析的項目 , 大數據 , jar , hadoop

收藏 評論

wx59290cd7bb11a - 實戰硬核!手把手教你用 Python 打造企業級 LLM 網關 (FastAPI + Asyncio 架構篇)

💎 本文價值提示 你將獲得什麼? 從零構建:不再是寫腳本,而是構建一個可擴展的微服務架構。 企業級思維:掌握限流、熔斷、流式傳輸等生產環境必備技能。 代碼即資產:一套可直接複用的 LLM Gateway 核心代碼骨架。 轉型視角:看懂大數據高吞吐思維如何映射到 AI 高併發架構。 👋 大家好,我是你們的老朋友

llm , 大數據 , 數據 , 數據倉庫 , AI , Json

收藏 評論

我不是碼農 - kafka stream的自定義時間段窗口實現

最近系統需要做一個日誌平台,對所有接入的系統進行日誌的統計分析,因為之前用的是kafka來實現各業務系統日誌接入日誌平台的,所以想到了直接使用kafka官方本身提供的一個實時計算框架kafka stream。 kafka stream的時間窗口有兩個重要的屬性:窗口大小和步長(移動間隔),滾動窗口Tumbling Time Window:步長等於窗口大小,滾動窗口是沒有記錄的重疊;跳躍窗口H

大數據 , stream , kafka , 實時計算

收藏 評論

cnolnic - PySpark ML常用轉換器

一、核心架構圖 二、角色分析 在Driver端,通過Py4j實現在Python調用Java的方法,即將用户寫得PySpark程序“映射”到JVM中,例如,用户在PySpark中實例化一個Python的SparkContext對象,最終會在JVM中實例化Scala的SparkContext對象 在Executor端,則

spark , 大數據 , big data , PySpark ML常用轉換器 , JAVA , Python

收藏 評論

資深程序設計 - 2026版基於python大數據的電影分析可視化系統

1、研究背景 在當今數字化時代,電影產業蓬勃發展,全球電影市場年票房收入持續增長。據統計,2023 年全球電影票房總收入達到數百億美元,電影數量也呈爆發式增長,每年有數千部電影在全球各大院線上映。然而,如此龐大的電影數據藴含着豐富的信息,但缺乏有效的分析手段,使得電影從業者、投資者和觀眾難以從中獲取有價值的知識。傳統的電影分析方法主要依賴人工統計和簡單圖表展示,效率低下且難

大數據 , yyds乾貨盤點 , 數據 , 電影分析 , 後端開發 , JAVA , Python , Web

收藏 評論

青雲交技術圈 - Java 大視界 -- 基於 Java 的大數據實時流處理在智能電網電力負荷預測與調度優化中的應用

(centerJava 大視界 -- 基於 Java 的大數據實時流處理在智能電網電力負荷預測與調度優化中的應用/center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!在 “雙碳” 目標與新型電力系統建設的雙重驅動下,智能電網正加速向數字化、智能化轉型。國家能源局《2024 年全國電力工業統計數據》顯示,我國電網調度自動化

spark , 大數據 , yyds乾貨盤點 , 數據 , kafka , apache

收藏 評論

我就是不長肉而已 - SBD3D60V1H-ASEMI可直接替代安世PMEG6010CEJ

編輯:ll SBD3D60V1H-ASEMI可直接替代安世PMEG6010CEJ ASEMI首芯半導體可替代安世半導體功率器件 型號:SBD3D60V1H 品牌:ASEMI 封裝:SOD-323 特性:肖特基二極管 正向電流:1A 反向耐壓:60V 恢復時間:35ns 引腳數量:2 芯片個數:1 芯片尺寸:M

ASEMI , SBD3D60V1H , 大數據 , hadoop , 在51CTO的第一篇博文 , 肖特基二極管

收藏 評論

u_14767244 - 壓縮率提升 48%,詳解 Apache Doris 存儲壓縮優化之道|Deep Dive

摘要 本文基於 ClickBench 數據集,展示了 Apache Doris 如何通過選擇壓縮算法、調整數據頁大小與分桶數、優化編碼策略以及改進數據排序來提升壓縮效率。最終,相同數據集的壓縮空間從 16.08 GB 降至 8.2 GB,壓縮率提升 48.6%。通過合理的調整與優化,Doris 成功在保持查詢性能的同時顯著降低了存儲成本。 在分析型數據庫中,列式存儲是壓縮和

大數據 , 字符串 , 數據 , 數據倉庫 , 壓縮算法

收藏 評論

IT智行者 - 製作投標文件目錄及頁碼索引什麼意思

摘自天極 由於業務的需要,我經常要寫某某項目的設計方案、協議合同等,雖篇幅不大,但都會有目錄。可我覺得目錄的插入總是不盡人意,索性人工編排,那麻煩勁真是一言難盡,不是對不齊,就是格式難看得要命,自從我安裝了OFFICE XP(2002)以後,在WORD中的目錄編排簡直可以説是隨心所欲,這樣的好東西實在不敢獨享,寫出來與大家共享。   編制目錄最簡單的方法是使用內置的大

自定義樣式 , 大數據 , 製作投標文件目錄及頁碼索引什麼意思 , 數據倉庫 , 創建目錄 , 選項卡

收藏 評論

青雲交技術圈 - Java 大數據機器學習模型在自然語言處理中的對抗樣本生成與防禦機制研究

(centerJava 大視界 -- Java 大數據機器學習模型在自然語言處理中的對抗樣本生成與防禦機制研究/center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!凌晨三點的硅谷實驗室裏,研究員 Lisa 盯着屏幕上不斷跳動的代碼,眉頭緊鎖。她剛剛收到某知名電商平台的緊急求助 —— 其智能評論審核系統突然將大量差評誤判為

機器學習 , spark , 大數據 , yyds乾貨盤點 , Deeplearning4j , NLP對抗樣本 , JAVA

收藏 評論

mob64ca14150f43 - spark3 用户權限管理

1 配置 export SCALA_HOME=/Users/zhaoshuai11/work/scala-2.12.14 export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_192.jdk/Contents/Home ## 指定spark老大Master的IP和提交任務

spark , spark3 用户權限管理 , 大數據 , 學習 , hadoop

收藏 評論

mob64ca140b0bc8 - Spark on Hive 和 Hive on Spark 區別

文章目錄 1. 實戰概述 2. 實戰步驟 2.1 修改Hive配置文件 2.2 分發Hive配置文件到Spark配置目錄 2.3 分發HikariCP數據庫連接池JAR包 2.4 修改Hadoop核心配置文件 2.5 啓動Hadoop服務 2.6 啓動Hive相關服務

大數據 , 配置文件 , hive , hadoop , Hive on Spark , Hive on YARN

收藏 評論

合合技術團隊 - 論文解讀-對話中的多模態情感識別綜述

一、簡要介紹 儘管基於文本的情感識別方法已經取得了顯著的成就,但現實世界中的對話系統往往需要比單一模態所能提供的更加細膩的情感理解。因此,多模態情感識別(MERC)成為了提升人機交互自然性和情感理解的關鍵方向。其目標是通過整合文本、語音和視覺信號等不同模態的信息,準確地識別情感。本綜述系統地概述了MERC,包括其動機、核心任務、代表性方法和評估策略。論文進一步探討了最近的趨勢,指出了關鍵挑戰,並

大數據 , 算法 , 人工智能

收藏 評論

技術領航博主 - thinkcmf引入ZipArchive

  最近接了一個建站項目,要求用thinkcmf來搭建,ytkah在想php都大致一樣吧,快速地下載安裝包,可是!怎麼安裝呢?沒看到安裝指引文件或目錄,查看了安裝説明public目錄做為網站根目錄,入口文件在/public/index.php,總算安裝成功了,可是默認站點鏈接不對,z5w.net/public/,多了一個/public/,怎麼把它隱藏呢?

composer , 大數據 , 配置文件 , php , hive

收藏 評論

笑傲江湖求敗 - 國產集中式關係型數據庫

1、數據庫介紹 1.1數據庫定義 所謂的數據庫其實就是數據的集合。用户可以對集合中的數據進行新增、查詢、更新、刪除等操作。數據庫是以一定方式儲存在一起、能與多個用户共享、具有儘可能小的冗餘度、與應用程序彼此獨立的數據集合。 1.2數據庫類型 1.2.1關係型數據庫 1.2.1.1定義 關係型數據庫最典型的數據結構是表,由二維表及其之間的聯繫所組

大數據 , 關係型數據庫 , 數據文件 , 數據倉庫 , 數據庫 , 國產集中式關係型數據庫

收藏 評論

mob64ca140dc73b - Outlook 正在為項目創建索引 剩餘 135282 個項目尚未創建索引

昨天安裝了中文版的office professional plus 2010(版本號14.0.4734.1000),安裝完後發現outlook2010把2007覆蓋掉了(發現office12文件夾下的outlook.exe重命名為outlook.exe_bk,還有其他幾個outlook相關的dll也被加了_bk後綴,其他的2007和2010都能並行。

大數據 , 數據倉庫 , 加載 , 重新啓動 , Outlook

收藏 評論

mob64ca141139a2 - abap opensql 帶索引列的內表

MySQL索引:B+樹索引 B+樹索引是傳統意義上的索引,這是目前關係型數據庫系統中查找最為常用和最為有效的索引。B+樹索引的構造類似於二叉樹,根據鍵值快速找到數據 B樹 B+樹是由B樹演化而來的,在瞭解B+樹之前,我們需要對B樹有一點認知。 B樹全稱Balance-tree(平衡多路查找樹)定義如下: 樹中每個結點至多有m 棵

結點 , 大數據 , 數據倉庫 , 子樹 , 子節點

收藏 評論

我就是不長肉而已 - B5817W-ASEMI可直接替換安世PMEG2005EH

編輯:ll B5817W-ASEMI可直接替換安世PMEG2005EH ASEMI首芯半導體可替代安氏半導體功率器件 型號:B5817W 品牌:ASEMI 封裝:SOD-123 特性:肖特基二極管 正向電流:1A 反向耐壓:20V 恢復時間:35ns 引腳數量:2 芯片個數:1 芯片尺寸:MIL 浪涌電

ASEMI , 大數據 , B5817W , hadoop , 在51CTO的第一篇博文 , PMEG2005EH

收藏 評論

雲端創新者 - installet和archive什麼區別

Linux 中的 Install命令 更新時間:2017年09月25日 16:51:45 投稿:mrr install命令的作用是安裝或升級軟件或備份數據,它的使用權限是所有用户。 本文重點給大家介紹Linux 中的 Install命令,感興趣的朋友一起看看吧 install命令的作用是安裝或升級軟件或備份數據,它的使用權限是所有用户

後綴 , 大數據 , 主目錄 , hive , Linux

收藏 評論

技術領航者之聲 - 基於模型的強化學習 目標檢測

作者:Mostafa Ibrahim 編譯:ronghuaiyang 導讀 使用EfficientNet和YoloV5的融合可以提升20%的performance。 在本文中,我將解釋上一篇文章中稱之為“2 class filter”的概念。這是一種用於目標檢測和分類模

機器學習 , 大數據 , 基於模型的強化學習 目標檢測 , 人工智能 , 計算機視覺 , 網絡

收藏 評論

mob64ca13fa6a3c - HDFS介紹_51CTO博客

這是一個關於HDFS的核心優勢問題。簡單來説,HDFS的設計目標就是處理超大文件(TB/PB級別),並能在成千上萬台普通商用服務器上穩定運行。 下面我們來詳細分解這兩個問題: 1. HDFS可以處理多大的數據? HDFS的設計初衷就是為了解決海量數據的存儲問題,它的數據容量能力可以從以下幾個層面來理解: 理論極限:極高

hdfs , 大數據 , 數據 , hadoop , 後端開發 , Python

收藏 評論

PowerData - 【邀請函】5月18 | PowerData 數字經濟·上海開源行!

活動介紹 十里洋場煙花地,風雲際會上海灘。 上海作為國家經濟最發達的城市,離不開各行業的支撐。實體經濟,金融,互聯網都在其中發揮着重要的作用,而這背後是無數的數據在支撐。 為了讓廣大數據人在數據這條路上走得更遠更穩,PowerData將於5月18號在春暖花開的上海舉辦以“數字經濟-城市開源行”為主題的線下開源分享活動。 為此PowerData廣發英雄帖,邀請數據江湖中各位志同道合的朋友一起參與,探

社區 , 上海 , 大數據 , 開源 , 活動

收藏 評論