tag 大數據

標籤
貢獻412
508
05:15 PM · Oct 25 ,2025

@大數據 / 博客 RSS 訂閱

編程小天匠 - 【技術之聲】第三期(20220103)一週精選

▌引言:GEO 正在重構全球智能流量分配規則 2025 年,生成式 AI 搜索已完成從“技術探索”向“商業規模化應用”的關鍵躍遷。以 ChatGPT、DeepSeek、Gemini、Claude、豆包等為代表的 AI 搜索與問答系統,正在系統性重塑用户的信息獲取路徑,也由此重構了企業獲取流量、影響決策與實現轉化的底層邏輯。 在這一背景下,GEO(Generat

知乎 , 商業 , 大數據 , 搜索 , hadoop

收藏 評論

mob64ca1416f1ef - Triton inference server系列(0)——相關資料整理

Triton Inference Server 架構與前後處理方案梳理 文章目錄 Triton Inference Server 架構與前後處理方案梳理 0 引言 1 client方案--自己在client端增加前處理和後處理

spark , 共享內存 , 大數據 , analyzer , 架構 , c++

收藏 評論

AI領域佈道師 - spark2支持hint嗎

目錄 條件 安裝 scala 發到虛擬機上,解壓 配置環境變量 配置SCALA_HOME,然後在PATH變量後加上`:$SCALA_HOME/bin` 驗證 spark 下載 解壓 配置環境變量

spark , 大數據 , hadoop , spark2支持hint嗎

收藏 評論

mob64ca14133dc6 - 計算機網絡常見面試題 - 楊柳依依

UDP和TCP是傳輸層最重要的兩種協議,它們的區別從根本上決定了互聯網上各種應用的表現。 簡單來説: TCP像打電話:需要接通、確認對方能聽到、有條理地對話、最後説再見。可靠,但步驟多。 UDP像發傳單:把傳單扔出去就行,不關心對方是否收到、是否按順序收到。快速,但不可靠。 下面通過一個詳細的表格和解釋來全面對

大數據 , tcp , ip , hadoop , udp , 網絡協議

收藏 評論

數據庫知識分享者 - 阿里巴巴雲原生大數據運維平台 SREWorks 正式開源

簡介:阿里巴巴雲原生大數據運維平台 SREWorks,沉澱了團隊近10年經過內部業務錘鍊的 SRE 工程實踐,今天正式對外開源,秉承“數據化、智能化”運維思想,幫助運維行業更多的從業者採用“數智”思想做好高效運維。 作者 | 晟白 來源 | 阿里技術公眾號 隨着行業不斷髮展,大數據AI也逐漸呈現雲原生化的趨勢。複雜的業務場景及其背後涉及到的不同技術方向的開源和自研,使得產品運維面臨技術複雜

阿里巴巴 , 大數據

收藏 評論

chaokunyang - Apache Fury 0.5.1 版本正式發佈

大家好,非常高興向大家發佈 Apache Fury 0.5.1 版本。該版本包含了來自七個 contributor的37個PR的貢獻,可以參考[安裝]()文檔獲取最新版本。 Release Notes:https://github.com/apache/incubator-fury/releases/tag/v0.5.1 Apache Fury簡介 Apache Fury 是一個基於JIT動

序列化 , 大數據 , 微服務 , rpc , JAVA

收藏 評論

得物技術 - 深入剖析時序Prophet模型:工作原理與源碼解析|得物技術

隨着得物業務的快速發展,積累了大量的時序數據,這些數據對精細化運營,提升效率、降低成本有着重要作用。在得物的時序數據挖掘場景中,時序預測Prophet模型使用頻繁,本文對Prophet的原理和源碼進行深入分析,歡迎閲讀和交流。 一、引入 時間序列是指按照時間先後順序收集或觀測的一系列數據點,這類數據通常都具有一定時間相關性,基於這種順序性,我們可以對時間序列進行多種數據挖掘任務,包括分類、聚類、異

序列化 , 大數據 , 時序數據庫 , 源碼分析 , 模型

收藏 評論

Mulavar - 【Flink】TaskManager 內存模型及計算邏輯詳解

本文旨在詳解 Flink TaskManager 的內存模型以及其各部分內存佔比的計算邏輯。首先,結合官網展示了當前 Flink 的內存模型,並在之後結合 JVM 自身內存模型和管理機制結合講解 Flink 內存模型的各個部分,最後結合源碼解釋了各部分內存佔比的計算邏輯。 1 內存模型組成部分 本節摘自官網:https://nightlies.apache.org/flink/flink-docs

內存 , 大數據 , jvm , 源碼分析 , flink

收藏 評論

Alluxio - Alluxio在數據索引和模型分發中的核心價值與應用

在當前的技術環境下,搜索、推薦、廣告、大模型、自動駕駛等領域的業務依賴於海量數據的處理和複雜模型的訓練。這些任務通常涉及從用户行為數據和社交網絡數據中提取大量信息,進行模型訓練和推理。這一過程需要強大的數據分發能力,尤其是在多個服務器同時拉取同一份數據時,更是考驗基礎設施的性能。 在這樣的背景下,Alluxio Enterprise AI 在數據索引與模型分發/部署方面展示了其獨特的優勢,特

大數據 , 索引 , 人工智能 , 模型

收藏 評論

StarRocks - StarRocks 在愛奇藝大數據場景的實踐

作者:林豪,愛奇藝大數據 OLAP 服務負責人 小編導讀: 本文整理自愛奇藝工程師在 StarRocks 年度峯會的分享,介紹了愛奇藝 OLAP 引擎演化及引入 StarRocks 後的效果。 在廣告業務中,StarRocks 替換 Impala+Kudu 後,接口性能提升 400%,P90 查詢延遲縮短 4.6 倍。 在“魔鏡”數據分析平台中,StarRocks 替代 Spar

大數據 , spa , olap

收藏 評論

Aloudata大應科技 - 重磅活動!3.14,與數智領袖共探 NoETL 指標平台最佳實踐

NoETL 指標平台重塑了指標開發協作模式。Aloudata CAN 以強大的指標定義和查詢加速能力,直連數倉公共層明細數據,自動化代持寬表與彙總表開發,實現了 NoSQL 指標定義、NoETL 指標開發、統一指標管理,一舉解決了指標“開發週期長、口徑不統一、分析不靈活、冗餘成本高”等頑疾,並在金融、消費零售、製造、ICT、能源、航空、醫療等多行業打造了標杆案例,為企業數據開發、消費與管理帶來了顛

數據管理 , 大數據 , 數據結構 , 數據庫 , 數據分析

收藏 評論

趙渝強老師 - 【趙渝強老師】Kafka消息的消費模式

Kafka消費者組中的消息消費模型有兩種,即:推送模式(push)和拉取模式(pull)。視頻講解如下: https://www.bilibili.com/video/BV1kG23Y4EZP/?aid=113282815891... 一、消息的推送模式 這種消息的消費模式需要記錄消費者的消費者狀態。當把一條消息推送給消費者後,需要維護消息的狀態。如果這條消息已經被消費將會對消息進行標記。這

大數據 , kafka

收藏 評論

StarRocks - 微信基於 StarRocks 的實時因果推斷實踐

作者: 張婧婧 騰旭微信數據科學家 熊吉祥 騰訊微信 OLAP 研發工程師、StarRocks Contributor本文整理自微信工程師 在 StarRocks 年度峯會上的分享,介紹了因果推斷在業務中的應用,詳細闡述了基於 StarRocks 構建因果推斷分析工具的技術方案,通過高效算子的支持,大幅提升了計算效率。例如,t 檢驗在 6億行數據上的執行時間僅需 1 秒。StarRocks

微信 , 大數據 , 數據庫 , olap

收藏 評論

小陳運維 - 搭建Zookeeper、Kafka集羣

搭建Zookeeper、Kafka集羣 Zookeeper、Kafka集羣系統環境配置 配置IP ssh root@192.168.1.190 "rm -rf /etc/machine-id; systemd-machine-id-setup;reboot" ssh root@192.168.1.192 "rm -rf /etc/machine-id; systemd-machine-id-set

大數據 , 運維 , zookeeper , Linux , kafka

收藏 評論

得物技術 - 得物自研DGraph4.0推薦核心引擎升級之路

一、前言 DGraph是得物自主研發的新一代推薦系統核心引擎,基於C++語言構建,自2021年啓動以來,經過持續迭代已全面支撐得物社區內容分發、電商交易等核心業務的推薦場景。DGraph在推薦鏈路中主要承擔數據海選和粗排序功能,為上層精排提供高質量候選集。 核心技術特性: 索引層 - 支持KV(鍵值)、KVV(鍵-多值)、INVERT(倒排)、DENSE-KV(稠密鍵值)等。索引存儲支持磁盤

高併發 , 大數據 , 推薦引擎

收藏 評論

Protonbase - AI 時代, 需要什麼樣的數據底座?

作者:楊克特 ProtonBase 技術副總裁 畢業於浙江大學計算機系,獲碩士學位,具備 10 多年核心系統設計和研發經驗。曾任阿里巴巴資深技術專家,負責過搜索引擎、資源調度、實時監控等系統的設計和研發。具備豐富的開源經驗,是 Apache Flink 和 Apache Druid 的 PMC 成員,以及 Apache 軟件基金會成員。 概念科普:Data Warebase = Data Ware

大數據 , 數據庫 , 人工智能 , 雲原生 , 分佈式

收藏 評論

阿里雲大數據AI - 阿里雲 AI 搜索開放平台新增:服務開發能力

隨着 AI 技術的快速發展,用户對 以算法驅動的 AI 搜索相關能力需求日益增長。AI 搜索開放平台已提供20+原子化服務能力,可靈活組合搭建AI搜索。本期發佈將重點解決用户在代碼開發中的不便,通過集成 dsw 能力,新增 notebook 功能,為用户提供更便捷的代碼編寫、調試及運行環境,進一步提升服務調試體驗。 一、產品能力 1. 文檔解析服務 支持文檔、圖片分鐘級解析,針對 PDF、DOC、

搜索引擎 , 大數據 , 人工智能 , 數據分析 , 數據處理

收藏 評論

泊浮目 - 入門向:下一代實時計算基礎設施-Fluss

本文在綠泡泡“狗哥瑣話”首發於2024.12.15 -關注不走丟。 上期講Flink Forward Aisa的視頻比較受歡迎,這期加更講Fluss。 為了方便新觀眾瞭解Fluss。簡單介紹一下Fluss,這玩意兒主要是為實時分析而生的流存儲。 所以它會有和Kafka一樣的能力,但是比起Kafka,多一個直接查的能力。 用在數據湖場景,比如配合Paimon,那麼就可以當作一個實時層,整個鏈路的延

fluss , 大數據 , flink , kafka

收藏 評論

泊浮目 - Fluss RoadMap裏Zero Disk是啥

本文在綠泡泡“狗哥瑣話”首發於2024.12.23 -關注不走丟。 上期Fluss的內容還算受歡迎,這期加更,講講Fluss RoadMap裏提到的Zero Disks是怎麼個事兒。 所謂Zero Disks就是把所有的存儲放在S3這種遠程,容量無限的存儲上。這樣集羣本身就可以做到無狀態了。 那這玩意兒會怎麼做呢?我們直接看一篇先成的文章。 原文鏈接: https://medium.com/the

fluss , 大數據 , flink , kafka

收藏 評論

趙渝強老師 - 【趙渝強老師】Scala編程語言

Scala是一種多範式的編程語言,其設計的初衷是要集成面向對象編程和函數式編程的各種特性。Scala運行於Java平台(Java虛擬機)之上,併兼容現有的Java程序。因此,要安裝Scala環境之前,首先需要安裝Java的JDK。學習Scala編程語言,將為後續學習Spark和Flink奠定基礎。視頻講解如下: https://www.bilibili.com/video/BV1wdUWYe

spark , 大數據 , Scala , flink

收藏 評論

鏡舟科技 - 數據湖和數據倉庫的區別

在當今數據驅動的時代,企業需要處理和存儲海量數據。數據湖與數據倉庫作為兩種主要的數據存儲解決方案,各自有其獨特的優勢與適用場景。本文將客觀詳細地介紹數據湖與數據倉庫的基本概念、核心區別、應用場景以及未來發展趨勢,幫助讀者更好地理解和選擇適合自身需求的數據存儲方案。 一、基本概念 數據湖(Data Lake) 數據湖的概念最早由Pentaho公司的James Dixon在2011年提出,是一種能夠存

大數據 , 數據結構 , 數據倉庫 , 數據分析 , 數據湖

收藏 評論

阿里雲大數據AI - 企業級AI搜索解決方案:阿里雲AI搜索開放平台

隨着信息技術的飛速發展,搜索引擎作為信息獲取的重要工具,扮演着不可或缺的角色。阿里雲 AI 搜索開放平台以其強大的技術支持和靈活的開放性,持續為用户提供高效的搜索解決方案。 一、阿里雲 AI 搜索開放平台 一站式的 AI 搜索開放平台作為阿里雲 AI 搜索整個產品體系核心,提供豐富的 AI 搜索組件化服務。兼容主流開發框架 LangChain和 LlamaIndex,支持搜索專屬大模型、百鍊等大模

搜索引擎 , 大數據 , 雲計算 , 阿里雲 , 人工智能

收藏 評論

vivo互聯網技術 - vivo Pulsar 萬億級消息處理實踐(2)-從0到1建設 Pulsar 指標監控鏈路

作者:vivo 互聯網大數據團隊- You Shuo 本文是《vivo Pulsar萬億級消息處理實踐》系列文章第2篇,Pulsar支持上報分區粒度指標,Kafka則沒有分區粒度的指標,所以Pulsar的指標量級要遠大於Kafka。在Pulsar平台建設初期,提供一個穩定、低時延的監控鏈路尤為重要。 系列文章: 《vivo Pulsar萬億級消息處理實踐-數據發送原理解析和性能調優

大數據 , 消息隊列 , kafka , pulsar

收藏 評論

vivo互聯網技術 - vivo Pulsar 萬億級消息處理實踐(3)-KoP指標異常修復

作者:vivo 互聯網大數據團隊- Chen Jianbo 本文是《vivo Pulsar萬億級消息處理實踐》系列文章第3篇。 Pulsar是Apache基金會的開源分佈式流處理平台和消息中間件,它實現了Kafka的協議,可以讓使用Kafka API的應用直接遷移至Pulsar,這使得Pulsar在Kafka生態系統中更加容易被接受和使用。KoP提供了從Kafka到Pulsar的無縫轉換,

大數據 , JAVA , 消息隊列 , kafka , pulsar

收藏 評論