tag 大數據

標籤
貢獻412
473
05:15 PM · Oct 25 ,2025

@大數據 / 博客 RSS 訂閱

level - 大數據系統需要把數據都放入hadoop中嗎

大數據發展過程的關鍵要素 數據源的三個層次: 1 緯度較少、數據量小 2 緯度豐富、數據量巨大(大數據)。 3 數據正確、及時、具有代表性 樣本數據=總體數據(全數據)。 對業務目標而言,數據是否“全”才是關鍵。 全數

大數據 , 數據 , hadoop , 數據治理 , 全數據

收藏 評論

SelectDB技術團隊 - SelectDB 實時分析性能突出,寶舵成本鋭減與性能顯著提升的雙贏之旅

BOCDOP 寶舵早期基於 TiDB 構建實時數倉,隨着數據量增長,在數據處理效率、OLAP 能力擴展、功能支持、成本與資源方面存在一定優化空間。為提升數據分析能力並優化成本,寶舵引入 SelectDB,達成寫入速度提升 10 倍,成本直降 30% 的顯著成效。 本文轉錄自高瑞軍(寶尊科技 高級架構師)在 Doris Summit Asia 2024 上的演講,經編輯整理。 業務背景 寶尊集團創立

大數據 , 數據倉庫 , 實時 , 數據庫 , 電商

收藏 評論

雲端小悟空 - 訓練特徵索引

之前介紹的StringIndexer是針對單個類別型特徵進行轉換,倘若所有特徵都已經被組織在一個向量中 ,又想對其中某些單個分量進行處理時,Spark ML提供了VectorIndexer類來解決向量數據集中的類別 性特徵轉換。通過為其提供maxCategories超參數,它可以自動識別哪些特徵是類別型的,並且將原始 值轉換為類別索引。

spark , 數據集 , 大數據 , 訓練特徵索引 , 數據倉庫 , 人工智能

收藏 評論

mob64ca1419e0cc - file時出現current ar archive

1.mysqlclient 目前不支持高版本python3 django.core.exceptions.ImproperlyConfigured: mysqlclient 1.3.13 or newer is required; you have 0.9.3. 原因是由於 mysqlclient 目前不支持高版本python,出現這個錯誤之後可以根

大數據 , MySQL , hive , django , Python

收藏 評論

KPaaS集成擴展平台 - 主數據實時同步:為什麼 CIO 要優先考慮?

越來越多 CIO 開始意識到:技術架構可以迭代,應用系統可以替換,但數據的一致性與可信度,才是決定數字化成敗的底層基石。而在所有數據類型中,主數據(Master Data)——如客户、供應商、物料、組織架構等核心業務實體——因其跨系統、高複用、強關聯的特性,成為數據治理的“牛鼻子”。 然而,現實卻令人憂心:銷售在 CRM 中錄入的客户信息,與財務在 ERP 中使用的客户編碼

主數據管理 , 大數據 , yyds乾貨盤點 , 數據孤島解決方案 , MDM , 數據倉庫 , 異構數據整合 , 數據一致性

收藏 評論

青雲交技術圈 - Java 大視界 --Java 大數據在智能醫療遠程手術機器人控制與數據傳輸中的技術支持

(centerJava 大視界 --Java 大數據在智能醫療遠程手術機器人控制與數據傳輸中的技術支持/center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!當手術台從醫院的無影燈下延伸至雲端,Java 大數據又將如何以代碼為刃,跨越時空守護生命?讓我們一同走進《Java 大視界 --Java 大數據在智能醫療遠程手術機器

spark , 大數據 , yyds乾貨盤點 , 數據 , Java大數據 , 機器人 , JAVA , 智能醫療

收藏 評論

mob64ca14116c53 - 開箱!NVIDIA DGX A100(80G)_嗶哩嗶哩

AI創新的火花:NVIDIA DGX Spark開箱與深度解析 引言:當桌面迎來PetaFLOP級AI算力 長久以來,擁有數據中心級的AI算力似乎是少數頂尖實驗室和大型企業的專屬。然而,NVIDIA通過一款顛覆性的產品,徹底改變了這一格局。今天,我們懷着無比激動的心情,為大家帶來NVIDIA DGX Spark的獨家開箱評測。這款被稱

spark , 大數據 , nvidia , 人工智能 , DGX , Css , 前端開發 , HTML

收藏 評論

AI科技 - AI決策更優卻遭“人類本能”牴觸,這是為何?

近日,36氪發佈的專題報道《當AI決策優於人類,我們為何會抗拒?》引發廣泛關注。文章以IBM Watson在癌症診療、便利店全鏈路AI接管等真實案例為切入口,指出技術本身並非失敗的根源,而是人機關係的設計缺失導致的抗拒情緒。 一、黑箱效應與信任缺失 AI算法往往隱藏決策依據,用户難以驗證其背後邏輯,形成“門衞問題”。文章強調,提升信任的關鍵在於三點:擬人化、透

數字化轉型 , 鏈路 , 大數據 , 自動駕駛

收藏 評論

青雲交技術圈 - Java 大視界 -- Java 大數據在智能教育虛擬學習環境構建與用户體驗優化中的應用

(centerJava 大視界 -- Java 大數據在智能教育虛擬學習環境構建與用户體驗優化中的應用/center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!在技術的浩瀚星河中,我們一路相伴,見證了 Java 大數據在各個領域的璀璨綻放。 如今,教育領域正經歷着前所未有的數字化浪潮,智能教育虛擬學習環境成為教育未來發展

spark , Java 大數據 , 大數據 , yyds乾貨盤點 , 數據 , JAVA

收藏 評論

泰克教育 - 泰漲知識 | RDD編程

一、RDD操作 1、創建操作 ①從文件創建 文件的一行對應RDD的一個元素: a.從本地文件創建 //格式:sc.textFile("file://本地文件絕對路徑") valrdd =sc.textFile("file

spark , 大數據 , hive , hadoop , Scala

收藏 評論

趙渝強老師 - 【趙渝強老師】大數據生態圈中的組件

  大數據體系架構中的組件非常多,每個組件又屬於不同的生態圈系統。從最早的Hadoop生態圈體系開始,逐步有了Spark生態圈體系和Flink生態圈體系。因此在學習大數據之前有必要了解一下每一個生態圈體系中具體包含哪些組件,以及它們的作用又是什麼。   視頻講解如下: https://www.bilibili.com/video/BV1UE421N7RC/?aid=1655938699

spark , 大數據 , hadoop , flink , kafka

收藏 評論

南大通用GBase - 南大通用GBase 8a_SENSITIVE_DIRECTORY_ACCESS_DISABLE 參數介紹

參數名:_sensitive_directory_access_disable參數 參數值:字符串類型,支持正則、分隔符號,默認ssh 參數可見範圍:不可被show 功能説明: 安全漏洞審查中認為導出數據到/home/xxx/.ssh/目錄中可能存在安全隱患, 增加_sensitive_di

GBase 8a , 文件名 , 大數據 , 字符串 , 數據倉庫 , 默認值

收藏 評論

mob64ca14038b36 - Ssearc索引器作用

索引器允許類或者結構的實例按照與數組相同的方式進行索引取值,索引器與屬性類似,不同的是索引器的訪問是帶參的。 索引器和數組比較: (1)索引器的索引值(Index)類型不受限制 (2)索引器允許重載 (3)索引器不是一個變量 索引器和屬性的不同點 (1)屬性以名稱來標識,索引器以函數形式標識 (2)索引器可以被重載,屬性不可以 (3

索引器 , Test , System , 大數據 , 數據倉庫 , Ssearc索引器作用

收藏 評論

mb68d4f4b730ca5 - 企業高質量發展評價體系實施的難易程度

在數聚股份看來, 政府部門對企業實施高質量發展評價過程中,有構建評價體系是其中最關鍵的部分,本文主要從體系構建的角度側面的呈現實施的難易程度。而大數據採集及可視化將貫穿全過程。 首先我國最新2017年版國民經濟行業分類(GB/T 4754-2017)將現行行業分為20大類,4個層級,共1775個小項,因此在指定評價體系過程中第一步需要考慮的就是行業分類對體系的影響。不同行業

大數據 , bi工具 , 數據採集 , 數據可視化 , 人工智能 , 數據分析

收藏 評論

vivo互聯網技術 - vivo Celeborn PB級Shuffle優化處理實踐

作者: vivo 互聯網大數據團隊-Wang Zhiwen、Cai Zuguang vivo大數據平台通過引入RSS服務來滿足混部集羣中間結果(shuffle 數據)臨時落盤需求,在綜合對比後選擇了Celeborn組件,並在後續的應用實踐過程中不斷優化完善,本文將分享vivo在Celeborn實際應用過程中對遇到問題的分析和解決方案,用於幫助讀者對相似問題進行參考。 1分鐘看圖掌握核心觀點

大數據 , shuffle , RSS

收藏 評論

mob64ca13fe9c58 - 科學引文索引WOS

SCI EI ISTP ISR SSCI簡介 《科學引文索引》(SCI) 《科學引文索引》(Science Citation Index,簡稱SCI)是美國科學情報研究所出版的一種世界著名的綜合性科技引文檢索刊物。該刊於1963年創刊,原為年刊,1966年改為季刊,1979年改為雙月刊。多年來,SCI數據庫不斷髮展,已經成為當代世界最重要的大型數據庫,被列在國際著名檢

工程技術 , 大數據 , 技術類 , 數據倉庫 , 科學引文索引WOS , ci

收藏 評論

lazihuman - hive取上季度最後一天

今日內容: 1) 分桶表的相關優化 -- 理解 2) 建模分層操作 -- 需要操作 3) 全量流程的統計分析: -- 需求操作 (嘗試自己實現) 數據的

字段 , 大數據 , 數據 , hive , hive取上季度最後一天

收藏 評論

阿里雲大數據AI - 阿里雲 AI 搜索開放平台:從算法到業務——AI 搜索驅動企業智能化升級

——已獲知乎作者【GitHub Daily】授權轉載 目前大模型的強大能力,使其成為一些企業和行業的主要創新驅動力,企業亟需重新審視和調整現有的創新機制,以適應AI技術和大數據的快速發展。目前很多企業已經開始嘗試大模型在業務中進行賦能,但在使用一些大模型時往往因為自身場景的需求不同,導致在應用落地中存在一些場景受限,知識庫不完善等一些痛點。 阿里雲AI搜索,憑藉先進的大模型能力和強大的 RAG 處

大數據 , 搜索 , 算法 , 阿里雲 , 人工智能

收藏 評論

海豚調度平台 - 收藏!Apache DolphinScheduler 3.3.2 超全配置指南來了,一張表搞定調優

前言 本文系統梳理 Apache DolphinScheduler 3.3.2 各服務(master/worker/api/alert/standalone)目錄、JVM、數據源、註冊中心、存儲、Quartz、環境變量及日誌等關鍵配置項、默認值與作用,為部署調優提供一站式參考。 目錄結構 ├── LICENSE │ ├── NOTICE │ ├── licenses

spark , spring , 大數據 , 配置文件 , server

收藏 評論

智能探索者之家 - 搜索引擎人物檢索模糊搜索

本週記者工具:PeekYou PeekYou是什麼? 一個在線目錄,拖網60多個社交網站和超過30億個鏈接,根據對此PeekYou的LinkedIn的資料,它��述了它的使命是“索引公共web周圍的人”。 PeekYou界面 (繼續,搜索你的名字,你知道你想。) 記者怎樣使用PeekYou?

社交網絡 , 大數據 , 社交網站 , 搜索引擎人物檢索模糊搜索 , 搜索 , 實名尋人搜索引擎app , 數據倉庫

收藏 評論

我就是不長肉而已 - BAT54S-ASEMI可直接替代安世BAT54S-QR

編輯:ll BAT54S-ASEMI可直接替代安世BAT54S-QR 型號:BAT54S 品牌:ASEMI 封裝:SOT-23 正向電流:0.2A 反向電壓:30V 正向壓降:0.55V~0.95V 引線數量:2 芯片個數:1 芯片尺寸:MIL 漏電流:10ua 恢復時間:35ns 浪涌電流:80A

BAT54S , ASEMI , 大數據 , hadoop , 在51CTO的第一篇博文 , 肖特基二極管

收藏 評論

SeaTunnel - 2025 白鯨開源:“溯” 光前行,“源” 啓新程!

引言:2025 年,我們的年終總結髮布姍姍來遲,但此刻開啓回顧正當時。 這一年,數據浪潮洶涌澎湃,開源領域競爭激烈,我們共同經歷了數據行業的高速發展和開源生態不斷演進,在這片充滿挑戰與機遇的海洋裏揚帆遠航。 值此歲末,讓我們一同回首過去一年的奮鬥歷程,審視得失,為新一年的征程汲取力量。接下來,讓我們一同梳理這一年白鯨開源的重要歷程。

年終總結 , 大數據 , 開源

收藏 評論

mob64ca140c75c7 - 離散度低的列為什麼不適於建索引

數據庫索引詳解 索引是對數據庫表中一列或多列的值進行排序的一種結構,使用索引可快速訪問數據庫表中的特定信息。 如何選擇合適的列建立索引 從where從句中,group by從句中,order by從句中,on從句中,select列中,還可以建立覆蓋索引(也就是指索引包含所有查詢的列,直接查索引就可以完成任務的

字段 , 大數據 , 索引 , 數據庫表 , 數據倉庫 , 離散度低的列為什麼不適於建索引 , 數據庫

收藏 評論

藍夢之翼 - netcore調用sqlserver數據庫索引整理

asp.net core通過ef core來訪問數據庫,這裏用的是代碼優先,通過遷移來同步數據庫與模型。 環境:vs2017,win10,asp.net core 2.1 一、從建立asp.net core web項目開始 1、通過vs2017建立一個asp.net core web

大數據 , 數據 , 數據倉庫 , 數據庫 , 主鍵

收藏 評論