tag 大數據

標籤
貢獻412
435
05:15 PM · Oct 25 ,2025

@大數據 / 博客 RSS 訂閱

合合技術團隊 - 啓信寶發佈《全國產業集羣大全》哈爾濱篇:2300家企業織就冰雪產業網

寒潮襲來,國內冰雪旅遊市場正悄然升温,“北上追雪”成為消費新熱點。隨着第27屆哈爾濱冰雪大世界啓動冰建工作,這座北方“冰城”正式進入冰雪時間。 作為我國萬億冰雪產業的關鍵一環,哈爾濱的冰雪經濟發展備受關注。近期,啓信寶發佈《全國產業集羣大全》哈爾濱篇,系統梳理當地冰雪產業的發展現狀與集羣特徵。報告提到,哈爾濱已構建起較為完整的冰雪產業鏈,尤其在裝備製造領域形成龍頭引領效應,並依託全域資源協同,展現

大數據 , 算法 , 人工智能

收藏 評論

mob64ca140ac564 - spark parquet 布隆過濾器

數學之美中23章介紹的布隆過濾器(Bloom filter),以下是一些算法的實現及應用 1.算法應用 在如那件設計中有個最基本的功能是判斷某個元素是否在集合當中,比如爬蟲中驗證一個url是否被收錄過,如果用普通的hash來判斷那需要的內存容量是驚人的。布隆過濾器的作用就是能夠降低內存用量,他只需要hash表的1/8到1/4就能夠解決問題。 3.算法實現

spark , spark parquet 布隆過濾器 , 大數據 , 字符串 , 主函數 , 布隆過濾器

收藏 評論

mob64ca1400bfa8 - Doris能否替代spark

目錄 0、準備 1、Spark 讀寫 Doris 1.1 準備 Spark 環境 1.2 使用 Spark Doris Connector 1.2.1 SQL 方式讀寫數據 1.2.2 DataFrame 方式讀寫數據(batch) 1.2.3 RDD 方式讀

spark , Doris能否替代spark , 大數據 , Scala

收藏 評論

温柔一刀 - goland索引建立

gocolly是用go實現的網絡爬蟲框架,目前在github上具有3400+星,名列go版爬蟲程序榜首。gocolly快速優雅,在單核上每秒可以發起1K以上請求;以回調函數的形式提供了一組接口,可以實現任意類型的爬蟲;依賴goquery庫可以像jquery一樣選擇web元素。 gocolly的官方網站是http://go-colly.org/,提供

github , 大數據 , 數據倉庫 , text , 示例代碼 , goland索引建立

收藏 評論

vivo互聯網 - vivo Celeborn PB級Shuffle優化處理實踐

作者: vivo 互聯網大數據團隊-Wang Zhiwen、Cai Zuguang vivo大數據平台通過引入RSS服務來滿足混部集羣中間結果(shuffle 數據)臨時落盤需求,在綜合對比後選擇了Celeborn組件,並在後續的應用實踐過程中不斷優化完善,本文將分享vivo在Celeborn實際應用過程中對遇到問題的分析和解決方案,用於幫助讀者對相似問題進行參

大數據 , 私藏項目實操分享 , shuffle , RSS , 數據倉庫 , Celeborn

收藏 評論

mob64ca14040d22 - 什麼是收錄索引名稱

seo與檢索密不可分相接,檢索是排行的基本,沒檢索就必須沒排行,選用科學研究的方式查尋儘量精確的百度收錄狀況,是人們從業seo的基礎工作中。如何查尋百度收錄?方式各種各樣,提議各種各樣方法綜合性應用。某些簡易的方法均可查詢系統的實際檢索總數,包含但是不限於應用百度搜索引擎命令,網頁搜索資源服務平台數據庫索引量小工具,普遍的seo查尋小工具等。 一、

搜索引擎 , 大數據 , 數據倉庫 , 什麼是收錄索引名稱 , 百度 , 數據庫索引

收藏 評論

墨韻流香 - 人臉素描數據集

OpenCV實時素描效果:用代碼將攝像頭畫面轉化為藝術素描 實現原理與可視化流程 運行前請安裝OpenCV:`pip install opencv-python`,如攝像頭無法打開請嘗試調整`VideoCapture(0)`或`VideoCapture(1)`參數。 素描效果的核心思想是模擬藝術家繪製素描時的視

spark , 大數據 , 人工智能 , 計算機視覺 , opencv , ide , Python

收藏 評論

mb69410ac31213c - 華為雲Flexus AI智能體,讓每家企業都擁有開箱即用的AI超能力

AI落地的最後一公里,卡在"用不起來" 2024年,不談AI的企業已被時代拋下。但真正試過的人都知道:大模型很強,落地很難。招不到AI工程師、搞不懂複雜參數、擔心數據泄露、算力成本燒不起……這些痛點讓90%的企業在智能化門口徘徊。Flexus AI智能體的出現,正是要撕掉"高門檻"的標籤——無需開發經驗,無需鉅額投入,20+款經過華為雲驗證的行業Agent,一鍵部署即可讓A

大數據 , 數據 , 數據倉庫 , 調優 , 模態

收藏 評論

jason_5b2ef2e3a6c1e - DataSpell 2025.2.3 11月最新版 安裝、授權、使用説明

2025-11-21親測 支持最新版本2025.2.3 支持Windows、MAC、Linux 一 安裝 官網下載 :https://www.jetbrains.com/zh-cn/dataspell/ 根據提示安裝 二 授權説明 回覆 《dataspell》獲取 新版本安裝後不提示授權,需要手動處理 三 使用 打開自己的項目,配置環境,開始開發

大數據

收藏 評論

趙渝強老師 - 【趙渝強老師】大數據主從架構的單點故障

  大數據體系架構中的核心組件都是主從架構,即:存在一個主節點和多個從節點,從而組成一個分佈式環境。下圖為展示了大數據體系中主從架構的相關組件。   視頻講解如下: https://www.bilibili.com/video/BV1vz421z72U/?aid=1355982530c...   從上圖可以看出大數據的核心組件都是一種主從架構,而只要是主從架構就存在單點故障的問

spark , 大數據 , hadoop , zookeeper , flink

收藏 評論

mob64ca140234eb - 大數據分析平台 類似神策

近日,國內頂尖行業研究大數據庫及內容平台頭豹研究院發佈了《2022年中國大數據產業一級市場縱覽》報告,億信華辰憑藉在大數據領域的持續深耕,以突出的技術創新能力和市場表現力,上榜“中國大數據產業一級市場相關廠商圖譜”中的數據治理、數據分析平台、數據存儲三大職能領域。其中,億信華辰在數據治理領域表現尤為亮眼,入選了數據治理企業一級市場標的圖譜。 △《20

大數據 , 數據 , 大數據分析平台 類似神策 , 人工智能 , 數據分析

收藏 評論

誤會一場 - 搜索分詞器和索引分詞器

三大主流分詞方法:基於詞典的方法、基於規則的方法和基於統計的方法。 1、基於規則或詞典的方法 定義:按照一定策略將待分析的漢字串與一個“大機器詞典”中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功。 按照掃描方向的不同:正向匹配和逆向匹配 按照長度的不同:最大匹配和最小匹配 1.1

最大匹配 , 大數據 , 中文分詞 , NLP , 數據倉庫 , 未登錄詞 , 搜索分詞器和索引分詞器

收藏 評論

架構設計師之光 - hive存儲結構化數據

Hive 的結構如圖所示, 主要分為以下幾個部分: 用户接口,包括 CLI,Client,WUI。 元數據存儲,通常是存儲在關係數據庫如 mysql, derby 中。 解釋器、編譯器、優化器、執行器。 Hadoop:用 HDFS 進行存儲,利用 MapReduce 進行計算。

大數據 , hive , table , hive存儲結構化數據 , 存儲 , 數據庫 , mapreduce

收藏 評論

夢想啓航吧 - 150g存儲會消耗多少存儲建立索引

給你100M空間你可以做多少事?一起來分析吧!100M的網站空間到底能放多少內容?" 很多用户對此問題還不甚瞭解,下面我就就此問題解釋一下吧! 100M的空間,就目前的存儲設備來説,簡直微不足道。但對於一般建站的用户來説,還是可以的。雖不敢説綽綽有餘,但放一個小型網站還是足夠了的。 下面我們一起來具體分析一下這100M的空間到

150g存儲會消耗多少存儲建立索引 , 大數據 , 建站 , 數據倉庫 , 數據庫 , bc

收藏 評論

阿森CTO - Linux管理文件與處理數據

@TOC 📝前言 本文將介紹Linux系統中的常用命令:mv、cat、echo、重定向、head和tail,主要用於文件管理和數據處理。重點講解mv命令和重定向的示例,最後演示如何用head和tail快速提取大型文件中的指定行。 🌠 mv指令(重要): mv命令是move的縮寫,可以用來移動文件或者將文件改名(move (rename) fil

文件描述符 , 大數據 , yyds乾貨盤點 , 數據倉庫 , 重定向 , 標準輸出

收藏 評論

qbit - 面向學科領域的網絡信息資源深度聚合與服務研究——Part3(qbit學習記錄)

圖書信息 《面向學科領域的網絡信息資源深度聚合與服務研究》 項目背景 本書是國家社科基金重大項目“面向學科領域的網絡信息資源深度聚合與服務研究”的結項成果, 孫建軍教授是該項目的首席專家。 回目錄 第三部分 學科網絡資源採集與獲取 4 學科網絡資源採集與預處理 4.1 信息資源採集 4.1.1 信息資源採集策略 4.1.2 信息資源採集技術與方法 4.2 信息資源預處理 4

大數據

收藏 評論

lu952450497 - 數據開發中的技術選型:從業務訴求到方案落地的全流程思考

企業的數據開發體系,往往伴隨着業務規模增長逐步演進。數據的產生源頭複雜、數據量不斷擴大、業務部門對數據的依賴程度提高,導致數據開發能力是否合理選型,將直接影響數據平台的穩定性、擴展性以及成本投入。 一、需求分析是技術選型的起點 在很多實際項目中,技術選型失敗主要不是因為技術不好,而是對實際訴求理解不清。技術選型之前應明確以下問題: 數據規

技術選型 , 大數據 , 數據 , hive , 數據倉庫

收藏 評論

西門吹雪 - 開源javascript流程包

機器學習開源框架 機器學習領域的巨大增長是由開放源代碼工具推動的,這些工具使開發人員可以輕鬆地構建應用程序。 (例如,來自德國的AndreyBu在機器學習方面擁有超過5年的經驗,他一直在利用各種開源框架來構建引人入勝的機器學習項目。) 儘管Python編程語言支持大多數機器學習框架,但JavaScript並沒有被拋在後面。 JavaScrip

大數據 , 神經網絡 , 網絡 , 前端開發 , 開源javascript流程包 , Javascript , Python

收藏 評論

ApacheSeaTunnel - 2025 白鯨開源:“溯” 光前行,“源” 啓新程!

引言:2025 年,我們的年終總結髮布姍姍來遲,但此刻開啓回顧正當時。 這一年,數據浪潮洶涌澎湃,開源領域競爭激烈,我們共同經歷了數據行業的高速發展和開源生態不斷演進,在這片充滿挑戰與機遇的海洋裏揚帆遠航。 值此歲末,讓我們一同回首過去一年的奮鬥歷程,審視得失,為新一年的征程汲取力量。接下來,讓我們一同梳理這一年白鯨開源的重要歷程。

spark , 年終總結 , 大數據 , 開源 , 白鯨開源

收藏 評論

mob64ca140651e5 - 24.大數據---Hive的連接三種連接方式_hive連接

Hive中的連接操作詳解 1. 全連接(FULL JOIN) 作用:返回兩個表的所有記錄,匹配失敗時用NULL填充缺失部分 語法: SELECT * FROM table1 FULL JOIN table2 ON table1.key = table2.key 示例:

字段 , 子查詢 , 大數據 , hive , SQL , jquery , 前端開發

收藏 評論

IT獨行俠 - 數據分析 報價單

大數據定價方法的國內外研究綜述及對比分析 劉枬1,郝雪鏡1,陳俞宏2 1重慶交通大學經濟與管理學院,重慶 400074 2重慶市軌道交通(集團)有限公司,重慶 401120 摘要:大數據獨特的價值特徵導致數據定價問題複雜,儘管研究者對此展開了大量研究,但大多角度單一且缺乏實際應用性。鑑於此,對大數據定價方法進行了綜述,梳理出成本導

機器學習 , 大數據 , 數據分析 報價單 , 人工智能 , 數據分析

收藏 評論

cnolnic - 關係型數據庫能換成分佈式數據庫麼

在SQL Server中的關係型數據倉庫分區策略(1) http://developer.51cto.com 2007-02-27 17:01 Gandhi Swaminathan 51CTO.com 我要評論(0) 分區,在Microsoft SQL Server中,便於

大數據 , 數據倉庫 , microsoft , 關係型數據庫能換成分佈式數據庫麼 , 磁盤 , SQL Server

收藏 評論

智能開發者 - storm sniffer口令生成

在部署好Storm集羣后,可以使用Storm提供的命令行客户端提供的幫助信息 [root@sc1 ~]# storm Commands: activate   激活指定的拓撲 classpath 獲取Storm客户端運行命令時使用的類路徑(classpa

Storm , 大數據 , 守護進程 , storm sniffer口令生成 , shell , ui

收藏 評論

liutao988 - HSSFColor的索引顏色

本文介紹和比較幾種常見圖片文件格式的優缺點,並介紹不同的文件格式對Web應用程序性能的影響。 有損vs無損 圖片文件格式有可能會對圖片的文件大小進行不同程度的壓縮,圖片的壓縮分為有損壓縮和無損壓縮兩種。 有損壓縮。指在壓縮文件大小的過程中,損失了一部分圖片的信息,也即降低了圖片的質量,並且這種損失是不可逆的,我們不可能從有一個有損壓縮過的圖片中恢復出全

HSSFColor的索引顏色 , 大數據 , 圖片格式 , 數據倉庫 , 文件大小 , svg

收藏 評論