大數據

標籤

貢獻412

2992

05:15 PM · Oct 25 ,2025

tech 頭像

elhix0bg 頭像

u_15844731 頭像

dolphinscheduler 頭像

ververica 頭像

seatunnel 頭像

zhaoqianglaoshi 頭像

huikaichedemianbao 頭像

@tech

暱稱青雲交技術圈

Last seen
@nebulabio

暱稱北京辰輝創聚生物

Last seen
@u_16272508

暱稱事辯天下

Last seen
@elhix0bg

暱稱阿里雲大數據AI

Last seen
@u_15844731

暱稱阿森CTO

Last seen
@u_14767244

暱稱u_14767244

Last seen
@dolphinscheduler

暱稱海豚調度

Last seen
@ververica

暱稱ApacheFlink

Last seen
@seatunnel

暱稱SeaTunnel

Last seen
@zhaoqianglaoshi

暱稱趙渝強老師

Last seen
@huikaichedemianbao

暱稱合合技術團隊

Last seen
@u_15591410

暱稱我就是不長肉而已

Last seen

@大數據 / 博客 RSS 訂閱

Dec 01 2025

huatechinfo - 直接間接索引地址

關於轉移地址的尋址方式關於轉移地址的尋址方式程序要實現轉移，要知道轉移的目的地的地址，尋找這種地址的方式，稱為轉移地址的尋址方式。分為兩種段內轉移段間轉移段內轉移段內轉移，只有IP值發生改變，CS沒變。尋址方式有兩種：直接尋址間接尋址直接尋址指令

直接尋址 , 尋址方式 , 大數據 , 轉移指令 , 數據倉庫 , 直接間接索引地址

Dec 19 2025

mob64ca14038b36 - 大數據hoodap 和mysql

這篇文章看似比較了兩個不同的觀點，實際上兩個人説的並不是一回事兒。RyanBetts講的是SQL作為一種標準化、交互性極強的語言本身，依然會在大數據庫時代的非關係型數據庫中發揮作用。BobWiederhold講的是關係型數據庫是縱向發展（大集中模式：拼命增強主機性能、拼命增強一個磁陣內的存儲），而非關係型數據庫適合橫向擴展（拼命加廉價的主機與存儲）,大數

大數據 , MySQL , nosql , 大數據hoodap 和mysql , relational database , 數據庫 , SQL

alijishu 頭像

May 11 2023

阿里雲開發者 - 展心展力 metaapp：基於 DeepRec 的稀疏模型訓練實踐

1 背景推薦場景大模型在國內的使用很早，早在 10 年前甚至更早，百度已經用上了自研的大規模分佈式的 parameter server 系統結合上游自研的 worker 來實現 TB 級別的萬億參數的稀疏模型。後來，各家平台也陸續基於這種方案，開發了自己的分佈式訓練系統，普遍特點是大量使用 id embedding，因此參數量巨大，模型大小也非常誇張。當然，隨着開源訓練工具 TensorFlow

機器學習 , 大數據 , 人工智能 , meta , 模型

Dec 24 2025

歲月靜好呀 - ENUM 類型需要建索引嘛

結構體-枚舉類型一、枚舉類型枚舉（enum）是值類型的一種特殊形式，它從System.Enum繼承而來，併為基礎類型的值提供替代名稱。枚舉類型有名稱、基礎類型和一組字段。基礎類型必須是一個除char 類型外的內置的有符號（或無符號）整數類型（如Byte、Int32或UInt64）。也可以説，枚舉類型是一組常量的集合。 1、定義：Enum....{E

大數據 , ENUM 類型需要建索引嘛 , 變量名 , 數據倉庫 , i++ , 枚舉類型

u_15082365 頭像

Nov 21 2025

u_15082365 - 百度大數據成本治理實踐

導讀本文概述了在業務高速發展和降本增效的背景下百度MEG（移動生態事業羣組）大數據成本治理實踐方案，主要包含當前業務面臨的主要問題、計算數據成本治理優化方案、存儲數據成本治理優化方案、數據成本治理成果以及未來治理方向的一個思路探討，為業界提供可參考的治理經驗。 01 背景隨着百度各業務及產品的快速發展，海量的離線數據成本在持續地增長。在此背景下，通過大數據治

spark , 大數據 , hadoop , 數據治理 , 成本優化

east4ming 頭像

Dec 23 2025

東風微鳴雲原生 - Apache Parquet 優勢與日誌應用場景解析

寫作背景近期看了幾篇關於日誌解決方案的文章, 發現它們都在使用 Apache Parquet 作為存儲文件格式. 如下: Yelp 發佈大規模管理 S3 服務器訪問日誌的方案_架構_InfoQ精選文章 Cloudflare Log Explorer is now GA, providing native observability and forensics 逆勢降本：雲上數據平台年復削

日誌管理 , 大數據 , 運維

nahandeyagao_dv9dhp 頭像

Oct 14 2024

nahandeyagao_dv9dhp - 閒魚API接口：商品詳情的實時同步

在當今互聯網時代，二手交易市場如同一片充滿生機的藍海，吸引着無數弄潮兒。在這片藍海中，閒魚平台以其獨特的魅力，成為了廣大用户的交易首選。為了讓更多開發者和企業充分利用這一平台資源，閒魚推出了商品詳情API接口，為廣大開發者開闢了一條獲取商品信息的綠色通道。閒魚商品詳情API接口，作為閒魚平台對外開放的重要服務之一，其主要作用是讓開發者能夠通過編程方式，輕鬆獲取平台上商品的具體信息。該接口涵蓋了商

大數據處理 , 淘寶開放平台 , 大數據 , API , 數據庫

Dec 26 2025

智能開發者 - hive並行insert into同一張表是否會漏數據

一、如何更高效率地插入大量數據 1、INSERT INTO workinfo (column1, column2) VALUES (1, 2), (2, 3),(4,5)；，這樣可以減少一些INSERT語句 2、推薦多線程並行插入代碼範例： PreparedStatement ps = con.prepareStatement(sql)

服務器 , 大數據 , hive , 數據庫 , ci

Dec 16 2025

程序猿追 - 使用GeeLark+亮數據，做數據採集打造爆款內容

https://www.bilibili.com/video/BV1t5m1B4Emg/?spm_id_from=333.1387.homepage.video_card.clickvd_source=8c987e288018fae8f95831d231306b93 結合GeeLark與亮數據（Bright Data）進行數據採集，是內容創作者和營銷人員打造爆款內容、實現數

大數據 , 數據 , ip , 數據採集 , 數據倉庫

Nov 21 2025

泰克教育 - 泰漲知識 | 10分鐘快速入門Hive之基本操作篇

一、DDL操作（數據定義語言） DDL操作（數據定義語言）包括：Create、Alter、Show、Drop等。 1. create database- 創建新數據庫 2. alter database - 修改數據庫 3. drop database - 刪除數據庫 4. create table - 創建新表 5.

大數據 , 數據 , hive

Dec 12 2025

北京辰輝創聚生物 - 病毒學研究的關鍵工具：重組病毒蛋白的技術解析與應用實踐

在當代病毒學與傳染病基礎研究領域，重組病毒蛋白已成為不可或缺的核心研究工具。這些通過基因工程技術在哺乳動物細胞、昆蟲細胞等表達系統中精準製備的蛋白質，為科研人員提供了安全可控、可規模化生產的高純度研究材料。與傳統的病毒提取蛋白相比，重組技術不僅完全規避了生物安全風險，更能實現嚴格的批次間一

重組蛋白定製 , 大數據 , 哺乳動物細胞表達 , 數據倉庫 , 蛋白質相互作用研究 , His標籤蛋白 , HEK293細胞表達

Dec 05 2025

mob64ca140088a9 - Nimbus storm

storm集羣在生產環境部署之後，通常會是如下的結構。從圖中可以看出zookeeper和supervisor都是多節點，任意1個zookeeper節點宕機或supervisor節點宕機均不會對系統整體運行造成影響，但nimbus和ui都是單節點。ui的單節點對系統的穩定運行沒有影響，僅提供storm-ui頁面展示統計信息。但nimbus承載了集羣

Nimbus storm , Storm , 大數據 , 配置文件 , zookeeper , 多節點

Dec 22 2025

代碼匠人之心 - yarn config list中auth token是什麼

YACC文件格式 yacc文件分為三部分： ... definitions ...（%{}%） %% ... rules ... %% ... subroutines ... 定義部分第一部分包括標誌（token）定義和C代碼（用“%{”和“%}”括起來）。如在定義部分定義標誌：

yacc , 大數據 , yarn , 優先級 , 遞歸

dolphinscheduler 頭像

Jul 31 2025

海豚調度 - 一文教會你基於 Rainbond 部署 DolphinScheduler 高可用集羣

本文描述通過 Rainbond 雲原生應用管理平台一鍵部署高可用的 DolphinScheduler 集羣，這種方式適合給不太瞭解 Kubernetes、容器化等複雜技術的用户使用，降低了在 Kubernetes 中部署 DolphinScheduler 的門檻。前提條件可用的 Rainbond 雲原生應用管理平台，請參閲文檔Rainbond 快速安裝。 DolphinScheduler 集

部署 , 大數據 , 開源 , JAVA

Dec 04 2025

編程之翼 - apache hive編程指南 edward pdf下載

Hive安裝部署 Hive 安裝及配置配置已經完成, 在此處啓動hadoop集羣 Hive 常用命令將本地文件導入 Hive 案例安裝MySql Hive 元數據配置到 MySql Hive 安裝及配置下載地址: https://pan.baidu.com/s/1_7g8Bw85Nw03t40H67sLfQ 提取

大數據 , hive , hadoop

Nov 19 2025

mob64ca13fe1aa6 - 人工智能學習筆記----01_hhh江月的技術博客

Deep Learning 基礎知識 Loss Function: MSE(mean square error loss)（均方誤差） CEE(cross entropy error loss)（交叉熵誤差） Backward: Sigmoid: ReLU:（分

卷積 , 大數據 , 激活函數 , hadoop , 全連接

daimajiangxin 頭像

Oct 09 2025

代碼匠心 - 從零開始學Flink：實時流處理實戰

在大數據處理領域，實時流處理正變得越來越重要。Apache Flink作為領先的流處理框架，提供了強大而靈活的API來處理無界數據流。本文將通過經典的SocketWordCount示例，深入探討Flink實時流處理的核心概念和實現方法，幫助你快速掌握Flink流處理的實戰技能。一、實時流處理概述 1. 流處理的基本概念流處理是一種持續處理無界數據的計算範式。與批處理不同，流處理系統需要在數據到

大數據 , JAVA , flink , 數據處理 , 後端

Dec 31 2025

imking - mongodb Aggregation聚合操作之$lookup

背景：$lookup的核心作用與應用場景跨集合關聯（Cross-collection Joining）是MongoDB聚合框架的核心能力，而$lookup是實現這一功能的關鍵階段與傳統SQL的JOIN不同：文檔友好型設計：結果以嵌套文檔形式輸出，保留NoSQL靈活性非破壞性操作：原文檔

spark , 字段 , 關聯查詢 , 數組 , 大數據 , mongodb , 數據庫

Dec 03 2025

北京辰輝創聚生物 - 細胞因子：細胞信使的分子世界與功能解析

在複雜的多細胞生物體內，細胞間的信息交流是維持生命活動的基礎。其中，細胞因子作為一類關鍵的信使分子，在免疫調節、細胞生長、分化、炎症反應和組織修復等過程中扮演着不可或缺的角色。本文將深入探討細胞因子的分子特性、作用機制及研究應用，為讀者提供全面的技術視角。一、細胞因子的

腫瘤壞死因子 , 大數據 , 細胞因子 , 信號轉導 , 數據倉庫 , 流式細胞術 , 白細胞介素

u_15844731 頭像

Dec 11 2025

阿森CTO - C++11線程庫

@TOC 在C++11標準出台前，多線程編程依賴系統原生接口——Linux的POSIX線程（pthread）與Windows的CreateThread接口互不兼容，導致跨平台代碼開發難度大、可移植性低。C++11首次將多線程納入標準庫，無需依賴第三方庫即可實現跨平台併發編程，同時引入原子操作類，為併發安全提供了原生支持。一、C++11線程庫核心接口解析

大數據 , yyds乾貨盤點 , include , 數據倉庫 , i++ , ios

Dec 03 2025

mob64ca1419a401 - 網站被搜索引擎轉碼了

這裏所説的搜索引擎主要是Google，因為像百度這種搜索引擎，老老實實的只使用GB2312編碼，自然不存在識別的問題。而Google本來也很厚道的會在Url中標識一下關鍵詞的編碼類型，可惜得加一個修飾“有時”，而另外一些時候，它會十分體貼的自動識別轉化而不告訴你…… 本着“Google可往，我亦可往”的信念，自己動手解決關鍵字編碼自動識別的問題。好在需要識別的範圍已

ico , 大數據 , google , 數據倉庫 , 編碼格式 , 網站被搜索引擎轉碼了

Nov 21 2025

網絡安全守衞 - Spark RDD 之分區

通過上篇文章【Spark RDD詳解】，大家應該瞭解到Spark會通過DAG將一個Spark job中用到的所有RDD劃分為不同的stage，每個stage內部都會有很多子任務處理數據，而每個stage的任務數是決定性能優劣的關鍵指標。首先來了解一下Spark中分區的概念，其實就是將要處理的數據集根據一定的規則劃分為不同的子集，每個子集都算做一個單獨的分區，由集羣中不

spark , 大數據 , 加載 , 後端開發 , JAVA , harmonyos

vivo_tech 頭像

Dec 14 2023

vivo互聯網技術 - Hudi 在 vivo 湖倉一體的落地實踐

作者：vivo 互聯網大數據團隊 - Xu Yu 在增效降本的大背景下，vivo大數據基礎團隊引入Hudi組件為公司業務部門湖倉加速的場景進行賦能。主要應用在流批同源、實時鏈路優化及寬表拼接等業務場景。一、Hudi 基礎能力及相關概念介紹 1.1 流批同源能力與Hive不同，Hudi數據在Spark/Flink寫入後，下游可以繼續使用Spark/Flink引擎以流讀的形式實時讀取數據。同一份H

大數據 , 效率 , 數據湖

Nov 28 2025

小屁孩 - 打包報錯archive is nota ZIP archive

AppCan AppCan開發平台簡介 AppCan是Hybrid App開發框架即混合開發框架,有官方提供底層功能使用API HTML5和JavaScript只是作為一種解析語言，真正調用的都是Native App一樣封裝的底層功能 AppCan打包本地打包 IDE生成的ipa包是越獄

ico , 大數據 , hive , 上傳 , Css