tag spark

標籤
貢獻106
221
05:15 PM · Oct 25 ,2025

@spark / 博客 RSS 訂閱

夢想啓航吧 - Github 開源項目貢獻指南:如何給開源項目做貢獻 (上) - 騰訊雲技術社區 -

作為服務數千家企業用户的開源企業級 LLM 應用開發平台,BISHENG 始終以“幫助組織真正實現智能化落地,讓更多人更高效的工作”為核心目標建立並維護開源生態。 GitCode 聯合 BISHENG 正式發起「開源貢獻徵集令」,無論你是技術大佬、開源新手,還是擅長分享的內容創作者,都能在這裏用貢獻兑換獎勵,用代碼賦能生態! 🔥 為什麼一定

code , spark , 大數據 , 企業級 , 開源 , gitcode , 迭代

收藏 評論

mob64ca1402665b - Spark SQL 優化筆記

1. 數據存儲與格式優化 選擇合適的文件格式:推薦使用 Parquet、ORC 等列式存儲格式,壓縮率高,查詢快。 分區存儲:根據業務字段(如日期、地區等)合理分區,減少掃描數據量。 避免小文件:合併小文件,減少文件系統開銷,提高並行度。 2. SQL 查詢優化 謂詞下推(Predic

spark , 大數據 , SQL

收藏 評論

mob64ca140c3859 - 15個參考文獻spark

開頭先跟小夥伴們講述一些DJ的兩大類分,一大類是媒體DJ(這個就不多説啦)、第二大類是夜店DJ,也是要介紹的重點。夜店DJ,英文:Night of Shop DJ 或者叫 Disco Music Jockey,早在一次世界大戰之前就已經有DISCO存在,不過那時候沒有現在這麼瘋狂,直到1972年"Cherry Lips"樂隊的一首"Play the Fu

spark , 大數據 , 15個參考文獻spark , 音頻格式 , 視頻編輯 , 音樂怎麼生成html

收藏 評論

killads - GDAL編譯安裝配置_超詳細_SQLite_libtiff_CURL_PROJ_GEOS_HDF4_HDF5_HDF5_VS2022

第02章:GDAL安裝與環境配置 2.1 安裝概述 GDAL 的安裝方式多種多樣,根據操作系統和使用場景的不同,可以選擇不同的安裝方法。本章將詳細介紹各種安裝方式,幫助你在不同環境下成功配置 GDAL。 2.1.1 安裝方式比較 安裝方式

spark , 大數據 , Python , Ubuntu

收藏 評論

ApacheSeaTunnel - 一次被大 JSON 教訓後的 Apache SeaTunnel 調優筆記

作者 | 肌肉娃子 起因:我以為只是“複製一份配置”這麼簡單 最開始的想法很樸素: amzn_order 的 Seatunnel CDC → Doris 同步已經跑得挺穩了,那我把這套配置直接“平移”到 amzn_api_logs 上,表名改一改,跑起來就完事。 結果就是: 線上機器內存一路飆到十幾 G,Java 進程頻繁 OOM,Doris / Trino 全在同一台

sed , spark , 大數據 , seatunnel , JAVA , Json

收藏 評論

雲端創新夢想家 - 人工智能+智能製造--中國製造未來方向_人工智能製造

引言 人工智能(AI)正在全球範圍內迅速發展,並深刻影響各行各業。尤其在製造業,AI技術的應用已成為提升生產力、優化供應鏈、減少成本和提升產品質量的重要工具。智能製造是工業4.0的核心,而人工智能無疑是這一進程的核心驅動力。AI的引入不僅僅是為了實現自動化,更在於通過數據驅動的智能決策來提升生產效率和響應市場需求的能力。 本文將探討人工智能在

機器學習 , spark , 大數據 , 數據 , hadoop , 人工智能

收藏 評論

IT獨行俠客 - 常用數據清洗方法大盤點_51CTO博客

大數據清洗:從“髒數據”到“黃金礦”的魔法變身術 關鍵詞:數據清洗、髒數據、ETL、數據質量、大數據優化、特徵工程、Pandas實戰 摘要:大數據時代,“數據是黃金”的説法早已深入人心,但剛從業務系統、傳感器或用户行為中採集到的數據,往往像剛從河裏撈上來的沙子——混着泥土、石頭、碎玻璃,甚至還有爛葉子。要想從這些“髒

spark , 髒數據 , 大數據 , 數據清洗 , 數據 , AI

收藏 評論

海豚調度平台 - Apache DolphinScheduler年終盤點

Apache DolphinScheduler 的社區成員、開發者、合作伙伴以及關心我們的朋友們: 2025 年轉瞬即逝,這一年裏,Apache DolphinScheduler 收穫了不少成果。GitHub 上關注我們項目的人越來越多,Star 和 Fork 數量也在不斷增長。我們還發布了多個重要版本,帶來了多項實用功能,提升了系統性能和智能化程度。 這一年,社區活動也在大家的

spark , dolphinscheduler , 大數據 , 開發者 , apache

收藏 評論

青雲交技術圈 - Java 大視界 -- 基於 Java 的大數據實時流處理在工業自動化生產線能源優化中的應用與實踐

(centerJava 大視界 -- 基於 Java 的大數據實時流處理在工業自動化生產線能源優化中的應用與實踐/center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!在珠三角某新能源汽車製造基地,深夜的生產車間依然燈火通明。隨着衝壓機的每一次起落,智能電錶的讀數以毫秒級頻率刷新,基於 Java 構建的實時流處理系統正以每

spark , 大數據 , yyds乾貨盤點 , 數據 , JAVA , 實時流處理 , 工業自動化

收藏 評論

青雲交技術圈 - Java 大視界 -- Java 大數據機器學習模型在遙感圖像土地利用分類中的優化與應用

(centerJava 大視界 -- Java 大數據機器學習模型在遙感圖像土地利用分類中的優化與應用/center) 引言 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!隨着衞星遙感技術的飛速發展,我們得以從 “上帝視角” 俯瞰地球,海量遙感圖像數據如同寶庫,藴藏着土地利用的關鍵信息。但面對這 “數據洪流”,傳統分類方法如同在茫茫大海撈

機器學習 , spark , hdfs , 大數據 , yyds乾貨盤點 , 數據 , Java大數據 , 遙感圖像

收藏 評論

阿里雲大數據AI - 最佳實踐 | 在 EMR Serverless Spark 中實現 Doris 讀寫操作

背景信息 EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 產品。它為企業提供了一站式的數據平台服務,包括任務開發、調試、調度和運維等,極大地簡化了數據處理和模型訓練的全流程。同時,它100%兼容開源 Spark 生態,能夠無縫集成到客户現有的數據平台。使用 EMR Serverless Spark,企業可以更專注於數據處理分析和模型訓練調優,提高

spark , 大數據 , 雲原生 , serverless

收藏 評論

代碼匠人之心 - spark 任務中如何連接高可用hive server

• /dependency• • dependency • groupIdmysql/groupId • artifactIdmysql-connector-java/artifactId • version5.1.38/version • /dependency • • depende

spark , 大數據 , maven , xml , apache

收藏 評論

雲端小悟空 - 訓練特徵索引

之前介紹的StringIndexer是針對單個類別型特徵進行轉換,倘若所有特徵都已經被組織在一個向量中 ,又想對其中某些單個分量進行處理時,Spark ML提供了VectorIndexer類來解決向量數據集中的類別 性特徵轉換。通過為其提供maxCategories超參數,它可以自動識別哪些特徵是類別型的,並且將原始 值轉換為類別索引。

spark , 數據集 , 大數據 , 訓練特徵索引 , 數據倉庫 , 人工智能

收藏 評論

青雲交技術圈 - Java 大視界 --Java 大數據在智能醫療遠程手術機器人控制與數據傳輸中的技術支持

(centerJava 大視界 --Java 大數據在智能醫療遠程手術機器人控制與數據傳輸中的技術支持/center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!當手術台從醫院的無影燈下延伸至雲端,Java 大數據又將如何以代碼為刃,跨越時空守護生命?讓我們一同走進《Java 大視界 --Java 大數據在智能醫療遠程手術機器

spark , 大數據 , yyds乾貨盤點 , 數據 , Java大數據 , 機器人 , JAVA , 智能醫療

收藏 評論

mob64ca14116c53 - 開箱!NVIDIA DGX A100(80G)_嗶哩嗶哩

AI創新的火花:NVIDIA DGX Spark開箱與深度解析 引言:當桌面迎來PetaFLOP級AI算力 長久以來,擁有數據中心級的AI算力似乎是少數頂尖實驗室和大型企業的專屬。然而,NVIDIA通過一款顛覆性的產品,徹底改變了這一格局。今天,我們懷着無比激動的心情,為大家帶來NVIDIA DGX Spark的獨家開箱評測。這款被稱

spark , 大數據 , nvidia , 人工智能 , DGX , Css , 前端開發 , HTML

收藏 評論

百度Geek説 - 搜索數據建設系列之數據架構重構

導讀 主要概述百度搜索業務數據建設的創新實踐,重點圍繞寬表模型設計、計算引擎優化和新一代業務服務交付模式(圖靈3.0開發模式)三大方向,解決了傳統數倉在搜索場景下面臨的諸多挑戰,實現了搜索數據建設的高效、穩定、低成本;為百度搜索業務敏捷迭代奠定夯實基礎。 名詞解釋 TDS(Turing Data Studio): 是基於圖靈(百度內部數據分析平台)的數據建設解決方案,提供 數據開發、數倉管理、監控

spark , 數據庫

收藏 評論

青雲交技術圈 - Java 大視界 -- Java 大數據在智能教育虛擬學習環境構建與用户體驗優化中的應用

(centerJava 大視界 -- Java 大數據在智能教育虛擬學習環境構建與用户體驗優化中的應用/center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!在技術的浩瀚星河中,我們一路相伴,見證了 Java 大數據在各個領域的璀璨綻放。 如今,教育領域正經歷着前所未有的數字化浪潮,智能教育虛擬學習環境成為教育未來發展

spark , Java 大數據 , 大數據 , yyds乾貨盤點 , 數據 , JAVA

收藏 評論

泰克教育 - 泰漲知識 | RDD編程

一、RDD操作 1、創建操作 ①從文件創建 文件的一行對應RDD的一個元素: a.從本地文件創建 //格式:sc.textFile("file://本地文件絕對路徑") valrdd =sc.textFile("file

spark , 大數據 , hive , hadoop , Scala

收藏 評論

趙渝強老師 - 【趙渝強老師】大數據生態圈中的組件

  大數據體系架構中的組件非常多,每個組件又屬於不同的生態圈系統。從最早的Hadoop生態圈體系開始,逐步有了Spark生態圈體系和Flink生態圈體系。因此在學習大數據之前有必要了解一下每一個生態圈體系中具體包含哪些組件,以及它們的作用又是什麼。   視頻講解如下: https://www.bilibili.com/video/BV1UE421N7RC/?aid=1655938699

spark , 大數據 , hadoop , flink , kafka

收藏 評論

mob64ca14031c97 - cdp對應的spark客户端 spark core

目錄 一、Spark Core 1、什麼是Spark?特點 二、安裝和部署Spark、Spark 的 HA 1、spark體系結構 2、spark的搭建 3、Spark的 HA 三、執行Spark的任務

spark , 大數據 , hadoop , Scala , cdp對應的spark客户端

收藏 評論

海豚調度平台 - 收藏!Apache DolphinScheduler 3.3.2 超全配置指南來了,一張表搞定調優

前言 本文系統梳理 Apache DolphinScheduler 3.3.2 各服務(master/worker/api/alert/standalone)目錄、JVM、數據源、註冊中心、存儲、Quartz、環境變量及日誌等關鍵配置項、默認值與作用,為部署調優提供一站式參考。 目錄結構 ├── LICENSE │ ├── NOTICE │ ├── licenses

spark , spring , 大數據 , 配置文件 , server

收藏 評論

mob64ca1407d5aa - Spark學習之路(十):Spark性能優化原理分點詳細講解與參數配置(純乾貨)_spark性能調優與原理分析

當你的Minecraft服務器突然變得卡頓,玩家紛紛抱怨延遲過高,你是否曾感到束手無策?服務器性能問題往往難以定位,傳統方法需要大量的猜測和試錯。Spark性能剖析器正是為解決這一痛點而生,它通過專業的性能分析工具,讓服務器性能問題變得透明可見。 實時性能剖析:從根源解決問題 Spark的核心優勢在於其實時性能剖析能力。當服務器出現性

spark , 服務器 , 數據 , 前端開發 , Javascript

收藏 評論

雲端創新者 - SPARKLIKE官網

本博文的主要內容:   1、HashShuffle徹底解密   2、ShufflePluggable解密   3、SortedShuffle解密   4、Shuffle性能優化 一:到底什麼是Shuffle?   Shuffle中文翻譯為“洗牌”,需要Shuffle的關鍵性原因是某種具有共同特徵的數據需要最終匯聚到一個計算節點上進行計算

sed , spark , 大數據 , 數據 , SPARKLIKE官網

收藏 評論

青雲交技術圈 - Java 大視界 -- Java 大數據在智能教育學習社區用户互動分析與社區活躍度提升中的應用

(center Java 大視界 -- Java 大數據在智能教育學習社區用户互動分析與社區活躍度提升中的應用 /center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!在國家智慧教育公共服務平台的運營大屏上,Java 驅動的大數據分析系統正以毫秒級速度解析全國 1.2 億學習者的互動行為。當系統捕捉到 “Python 數據

spark , 大數據 , yyds乾貨盤點 , JAVA , apache

收藏 評論