tag 大數據

標籤
貢獻412
495
05:15 PM · Oct 25 ,2025

@大數據 / 博客 RSS 訂閱

definitely - 關於數倉建設及數據治理的超全概括 - 五分鐘學大數據的個人空間 -

目錄 一、道:數倉之“樸”與“無為” 1.“道常無名,樸雖小,天下莫能臣”——尊重數據的本真 2.“無為而無不為”——讓系統自運行 二、術:分層、建模與ETL的“有為”之法 1.“知其白,守其黑,為天下式”——分層設計的陰陽之道 2.“大制不割”——避免系統碎片化 3.“治大國若烹小鮮”——ETL 與調度的輕巧之道 三、道術合一:構

大數據 , 建模 , 面試 , 數據倉庫 , 後端開發 , 職場和發展 , Python

收藏 評論

码海舵手之心 - 網卡索引號什麼時候用

sql執行時間長,性能下降的原因推測: 1.查詢語句寫的不好 2.索引失效 索引分為: 1.單值索引 create index idx_user_name on user(name) 2.多值索引 create index id

表名 , 字段 , 大數據 , 數據 , 數據倉庫 , 網卡索引號什麼時候用

收藏 評論

wx6953b3319ffb2 - 從計算機導論到職業賽道:我的技術成長規劃書

《計算機科學導論》的學習讓我完成了從“計算機使用者”到“計算機學習者”的身份轉變,也讓我對這個行業的職業方向有了清晰的認知。結合自身興趣和學科特點,我制定了一份從“入門到深耕”的職業規劃,希望能在計算機領域找到屬於自己的賽道,一步步實現從“技術新人”到“行業專才”的蜕變。 一、職業方向的選擇:聚焦軟件開發與AI應用 經過課程學習和自我探索,我將職業方向鎖定在軟件開發和人工智

應用開發 , 大數據 , 軟件開發 , 數據倉庫 , 人工智能

收藏 評論

饕餮大數據 - 【Ambari開啓Kerberos】- Atlas啓動 - Kafka權限異常

一、問題背景 ttr-2.2.1 以上版本已修復 在 ttr-2.2.1 及以上版本中,Atlas 在開啓 Kerberos 後已自動適配 Kafka ACL 權限。 若使用早期版本(如 ttr-2.2.0),啓動時可能因 Kafka 認證失敗 導致 Atlas 無法正常消費 Topic。

redis , hdp , 大數據 , atlas , 運維 , 數據庫 , Ambari

收藏 評論

數據探索先鋒 - db2 shell腳本批量插入數據

《DB 查詢分析器》批量執行DML語句並返回更詳細的信息 馬根峯 ( 廣東聯合電子收費股份有限公司, 廣州 510300) 摘要本文簡單闡明瞭DB 查詢分析器訪問DB2時批量執行DML語句,並返回更詳細的信息。 關鍵詞 DB 查詢分析器;DML;數據庫客户端工具 DB Query Analy

大數據 , 數據倉庫 , 數據庫查詢 , 數據庫 , SQL , db2 shell腳本批量插入數據 , 查詢分析器

收藏 評論

Tob市場觀測員 - 企業獲客路徑的技術性拆解:從流量到線索的工程化實現

在當前的商業環境中,企業獲客已從單純的營銷活動演變為一個涉及數據、技術和流程的複雜系統工程。核心挑戰在於,如何將分散的公域流量與私域觸點高效連接,並實現潛在客户信息的結構化沉澱與有效轉化。本文旨在從技術實現與業務邏輯融合的視角,中立分析這一過程的關鍵環節與可選方案。 一、問題根源:獲客效率瓶頸的技術性歸因 獲客效率的瓶頸往往並非源於單一渠道的失效,而是系統性的數據孤島

機器學習 , 大數據 , 數據 , 數據倉庫 , 觸點

收藏 評論

阿里雲大數據AI技術 - 雲棲實錄 | 洋錢罐基於 EMR Serverless 產品構建全球一體化數字金融平台

演講人:宋曉峯洋錢罐大數據運維總監 十年破壁:從數據築基到智能生態的全鏈路實踐 一、數據築基——自建大數據集羣的攻堅與突破 背景介紹 瓴嶽科技(Fintopia)是以大數據和人工智能為基礎的數字科技集團,為全球用户提供卓越的金融體驗。2015年成立至今,瓴嶽科技始終聚焦消費金融,業務遍佈中國大陸、東南亞、拉丁美洲和非洲等;集團旗下擁有洋錢罐、Easycas

spark , 大數據 , starrocks

收藏 評論

異常君 - 【大數據內核解密】HDFS 架構與數據模型:從理論到實戰全解析

作為 Hadoop 生態系統的基石,HDFS (Hadoop Distributed File System)為大數據應用提供了高吞吐量、高容錯性和高可用性的存儲解決方案。本文將深入剖析 HDFS 的核心架構、數據模型和關鍵機制,帶你全面瞭解這個分佈式文件系統的內部工作原理。 一、HDFS 主從架構:NameNode 與 DataNode 的協作機制 HDFS 採用典型的主從架構設計,由一個 Na

hdfs , 大數據 , hadoop , 後端

收藏 評論

mob64ca13fbd761 - (I)Banach空間和不動點定理 4: Schauder 不動點及其應用

本節的主要內容在於lambda函數和let函數,通過兩種新的函數形式減少了定義的使用,對過程設計進行了簡化。 lambda函數用於減少define的使用,使得過程的編制更加符合直覺,通過lambda(x)(fx)的形式可以減少很多函數體外的定義過程。 let函數更多用於定義局部變量,通過let體內的定義可以直接完成局部變量的運算,但需要注意區分

d3 , 大數據 , hadoop , 函數體 , 局部變量

收藏 評論

vivo互聯網技術 - Spark on K8s 在vivo大數據平台的混部實戰

作者:vivo 互聯網大數據團隊- Qin Yehai 在離線混部可以提高整體的資源利用率,不過離線Spark任務部署到混部容器集羣需要做一定的改造,本文將從在離線混部中的離線任務的角度,講述離線任務是如何進行容器化、平台上的離線任務如何平滑地提交到混部集羣、離線任務在混部集羣中如何調度的完整實現以及過程中的問題解決。 一、在離線業務差異 互聯網數據業務服務一般可以分為在線服務和離線任務兩

spark , 容器 , 大數據

收藏 評論

夢想啓航吧 - Github 開源項目貢獻指南:如何給開源項目做貢獻 (上) - 騰訊雲技術社區 -

作為服務數千家企業用户的開源企業級 LLM 應用開發平台,BISHENG 始終以“幫助組織真正實現智能化落地,讓更多人更高效的工作”為核心目標建立並維護開源生態。 GitCode 聯合 BISHENG 正式發起「開源貢獻徵集令」,無論你是技術大佬、開源新手,還是擅長分享的內容創作者,都能在這裏用貢獻兑換獎勵,用代碼賦能生態! 🔥 為什麼一定

code , spark , 大數據 , 企業級 , 開源 , gitcode , 迭代

收藏 評論

fjfdh - 訂單狀態字段的選擇性不高怎麼設計索引

當你開始構建或重構一個複雜系統的時候,請先把大的設計原則寫下來,然後在這些設計原則的框架內做推演。 昀哥 2020年10月23日 一,開展詳細設計之前請先把大的設計原則寫下來 每一位設計師都需要知道這個常識: 當你開始構建或重構一個複雜系統的時候,請先把大的設計原則寫下來,然後在這些設計原則的框架內做推演。 而不是這種常見的工作方式:

字段 , 系統設計 , 大數據 , 訂單狀態字段的選擇性不高怎麼設計索引 , 數據倉庫 , 設計原則

收藏 評論

Aloudata - Data Agent 精選推薦,推動人人都是分析師願景落地

摘要 在數據量爆炸式增長與業務決策實時性要求提升的雙重驅動下,Data Agent(數據智能體)正從輔助工具向企業核心數據分析中樞演進。其通過融合大模型能力與數據管理和分析技術,為企業提供“對話即分析”、“自動找根因”、“一鍵生成報告”等智能化數據分析服務,推動“人人都是分析師”的願景落地。 前言:當數據分析遇上 AI,Data Agent

大數據 , data , 數據倉庫 , 數據分析 , 智能問數 , chatbi

收藏 評論

墨色天香 - volta 無法刪除yarn

今天準備把虛擬機裏的10g卸載 卸載沒有用自帶的UnInstall工具 之前看warehouse的講課視頻 憑記憶手動卸載了下 刪除註冊表,包括HKEY_LOCAL_MACHINE\SOFTWARE和HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSe

oracle , 大數據 , yarn , 無法刪除 , volta 無法刪除yarn , 重啓

收藏 評論

colddawn - 大數據系列 -- 數據埋點_51CTO博客

8.1.2 埋點實現方式分類 8.1.2.1 代碼埋點 原理: 在代碼中手動插入埋點邏輯,精準捕獲特定事件(如按鈕點擊、頁面加載)並上報數據。可根據埋點位置分為前端埋點(客户端)和後端埋點(服務端)。 實現步驟: 確定需求:明確需監控的事件(如“加入購物車”按鈕點擊)及數據維度(如用户 ID、時間戳)。 插

大數據 , 數據 , app , 埋點 , 數據治理 , 後端開發 , harmonyos

收藏 評論

mob64ca1402665b - Spark SQL 優化筆記

1. 數據存儲與格式優化 選擇合適的文件格式:推薦使用 Parquet、ORC 等列式存儲格式,壓縮率高,查詢快。 分區存儲:根據業務字段(如日期、地區等)合理分區,減少掃描數據量。 避免小文件:合併小文件,減少文件系統開銷,提高並行度。 2. SQL 查詢優化 謂詞下推(Predic

spark , 大數據 , SQL

收藏 評論

BugShare - 嘿嘿,一個簡單ElasticSearch小實現

週五臨近下班,原本打算摸摸魚,結果產品經理來個新需求。領導覺得 AI 服務器報價太貴,想先做個“低成本替代方案”來演示一下分析效果。於是,需求會議就開了。其中有一塊功能是 “檢索內容高亮顯示並展示匹配度”,產品經理説這可以考慮用 Elasticsearch 實現。行吧,需求是他提的,代碼自然就得咱來寫了。那就開幹吧 💪 一、啓動 Elasticsearch 服務(Docker 簡單搞定) 這裏用

vue.js , elasticsearch , 大數據 , springboot , Docker

收藏 評論

mob64ca140c3859 - 15個參考文獻spark

開頭先跟小夥伴們講述一些DJ的兩大類分,一大類是媒體DJ(這個就不多説啦)、第二大類是夜店DJ,也是要介紹的重點。夜店DJ,英文:Night of Shop DJ 或者叫 Disco Music Jockey,早在一次世界大戰之前就已經有DISCO存在,不過那時候沒有現在這麼瘋狂,直到1972年"Cherry Lips"樂隊的一首"Play the Fu

spark , 大數據 , 15個參考文獻spark , 音頻格式 , 視頻編輯 , 音樂怎麼生成html

收藏 評論

killads - GDAL編譯安裝配置_超詳細_SQLite_libtiff_CURL_PROJ_GEOS_HDF4_HDF5_HDF5_VS2022

第02章:GDAL安裝與環境配置 2.1 安裝概述 GDAL 的安裝方式多種多樣,根據操作系統和使用場景的不同,可以選擇不同的安裝方法。本章將詳細介紹各種安裝方式,幫助你在不同環境下成功配置 GDAL。 2.1.1 安裝方式比較 安裝方式

spark , 大數據 , Python , Ubuntu

收藏 評論

mob64ca1411e411 - hive 4舍五五

Excel函數千千萬萬,真是讓人眼花繚亂!很多辦公小白經常苦惱,到底該怎麼學習Excel函數呢? 其實,日常使用Excel的時候,真正用到的函數並不多~今天,小編就來給大家盤點5個日常辦公中最常用到的Excel函數吧~ 一、If公式 If函數是用於快速判斷條件是否成立的一個函數,也是Excel函數中最常被大家使用的函數,因此,學會IF函

hive 4舍五五 , 合併單元格 , 大數據 , hive , 四捨五入 , 成績排名 , 計算機excel四捨五入

收藏 評論

事辯天下 - 2026天津機牀展:京津冀萬億機牀採購市場背後的技術升級與產業協同

隨着京津冀協同發展戰略深入推進,2026年該區域製造業迎來新一輪設備更新週期。由中華人民共和國商務部批准、國際展覽業協會(UFI)認證、中國機械工業聯合會及振威國際會展集團共同主辦的第22屆天津機牀展將於2026年3月18-21日舉辦。組委會透露,京津冀地區重點產業對機牀的需求呈現“高端化、智能化、綠色化”趨勢,新能源汽車、航空航天、電子製造等領域成為採購主力,預計帶動超百億元級

大數據 , 數據倉庫 , 高精度

收藏 評論

ApacheSeaTunnel - 一次被大 JSON 教訓後的 Apache SeaTunnel 調優筆記

作者 | 肌肉娃子 起因:我以為只是“複製一份配置”這麼簡單 最開始的想法很樸素: amzn_order 的 Seatunnel CDC → Doris 同步已經跑得挺穩了,那我把這套配置直接“平移”到 amzn_api_logs 上,表名改一改,跑起來就完事。 結果就是: 線上機器內存一路飆到十幾 G,Java 進程頻繁 OOM,Doris / Trino 全在同一台

sed , spark , 大數據 , seatunnel , JAVA , Json

收藏 評論

雲端創新夢想家 - 人工智能+智能製造--中國製造未來方向_人工智能製造

引言 人工智能(AI)正在全球範圍內迅速發展,並深刻影響各行各業。尤其在製造業,AI技術的應用已成為提升生產力、優化供應鏈、減少成本和提升產品質量的重要工具。智能製造是工業4.0的核心,而人工智能無疑是這一進程的核心驅動力。AI的引入不僅僅是為了實現自動化,更在於通過數據驅動的智能決策來提升生產效率和響應市場需求的能力。 本文將探討人工智能在

機器學習 , spark , 大數據 , 數據 , hadoop , 人工智能

收藏 評論