tag pandas

標籤
貢獻16
109
04:55 AM · Oct 28 ,2025

@pandas / 博客 RSS 訂閱

咚咚王哲 - 人工智能之數據分析 Pandas:第一章 簡介和安裝

人工智能之數據分析 Matplotlib 第一章 簡介和安裝 (文章目錄) 前言 Pandas 是一個強大的 Python 數據分析和處理庫,廣泛用於數據清洗、探索、操作和分析。它建立在 NumPy 之上,提供了高效、靈活且易於使用的數據結構,特別適合處理結構化(表格型)數據。 📌 Pandas 的核心數據結構

數據結構 , 人工智能 , pandas , 數據分析 , 深度學習

收藏 評論

deephub - Pandas 2.1發佈了

2023年3月1日,Pandas 發佈了2.0版本。6個月後(8月30日),更新了新的2.1版。讓我們看看他有什麼重要的更新。 更好的PyArrow支持 PyArrow是在Panda 2.0中新加入的後端,對於大數據來説提供了優於NumPy的性能。Pandas 2.1增強了對PyArrow的支持。官方在這次更新中使用最大的高亮字體宣佈 PyArrow 將是 Pandas 3.0的基礎依賴,這説明P

機器學習 , pandas , Python

收藏 評論

雲端小仙童 - Numpy、Matplotlib和pandas學習路線引導

Numpy內容 Numpy是Python中用於科學計算的核心庫,提供高性能的多維數組對象(ndarray)及運算工具。其核心功能包括數組創建、數學運算、線性代數、隨機數生成等。實戰中常用於數據處理、數值模擬和矩陣運算。 1. Numpy的數組對象ndarray ndarray 是 Numpy 的核心數據結構,支持多維數組操作。其特點包括

matplotlib , 數組 , numpy , 後端開發 , pandas , Python

收藏 評論

deephub - 4個將Pandas換為交互式表格Python包

Pandas是我們日常處理表格數據最常用的包,但是對於數據分析來説,Pandas的DataFrame還不夠直觀,所以今天我們將介紹4個Python包,可以將Pandas的DataFrame轉換交互式表格,讓我們可以直接在上面進行數據分析的操作。 Pivottablejs Pivottablejs是一個通過IPython widgets集成到Python中的JavaScript庫,允許用户直接從Da

機器學習 , 人工智能 , pandas , Python

收藏 評論

deephub - Pandas中選擇和過濾數據的終極指南

Python pandas庫提供了幾種選擇和過濾數據的方法,如loc、iloc、[]括號操作符、query、isin、between等等 本文將介紹使用pandas進行數據選擇和過濾的基本技術和函數。無論是需要提取特定的行或列,還是需要應用條件過濾,pandas都可以滿足需求。 選擇列 loc[]:根據標籤選擇行和列。df.row_label loc, column_label] 也可以使用lo

機器學習 , 人工智能 , pandas , 數據分析 , Python

收藏 評論

deephub - Pandas字符串操作的各種方法速度測試

由於LLM的發展, 很多的數據集都是以DF的形式發佈的,所以通過Pandas操作字符串的要求變得越來越高了,所以本文將對字符串操作方法進行基準測試,看看它們是如何影響pandas的性能的。因為一旦Pandas在處理數據時超過一定限制,它們的行為就會很奇怪。 我們用Faker創建了一個100,000行的測試數據。 測試方法 安裝: !pip install faker 生成測試數據的方法很簡答:

機器學習 , 人工智能 , pandas , Python

收藏 評論

deephub - 10個Pandas的高級技巧

Pandas是我們最常用的數據處理Python庫之一。儘管您可能已經與它共事多年,但可能還有許多您尚未探索的實用方法。我將向您展示一些可能未曾聽説但在數據整理方面非常實用的方法。 我目前日常使用的是pandas 2.2.0,這是本文時可用的最新版本。 import pandas as pd import numpy as np print(pd.__version__) 1、agg 你

機器學習 , pandas , 數據分析 , Python

收藏 評論

阿里雲開發者 - 現在支持對maxcompute的odpssql節點執行結果進行檢查嗎,比如檢查select 得到的數

我們可以通過編寫Python腳本來實現對odpssql節點執行結果的檢查。 具體的實現方式為,我們可以將odpssql節點執行結果導出到本地設備中的.csv或.xlsx文件中,然後使用Python的pandas庫讀取這些文件,在讀取的過程中進行數據的校驗,包括數據類型、數值範圍、空值等等。如果數據不符合預期,我們可以通過Python的日誌模塊將錯誤信息輸出到日誌文件中,並觸發告警系統。 下面是一個

csv , 腳本 , 阿里雲 , pandas , Python

收藏 評論

去碼頭整點薯條 - 利用 Python 進行數據分析 —— 4 數據的導入導出

在數據分析中,我們一般不會像前幾篇文章那樣自己創造數據,而是需要利用外部數據。本篇要解決兩個問題: 如何將外部數據導入,並轉換為 DataFrame? 如何將 DataFrame 導出為常用的文件格式? 4.1 讀取文本數據 本篇文章用到的數據,可以從 GitHub 上下載:https://github.com/wesm/pydat... 4.1.1 csv 數據:處理標題行 我們可以從

讀書筆記 , pandas , 數據分析 , Python

收藏 評論

deephub - 4個解決特定的任務的Pandas高效代碼

在本文中,我將分享4個在一行代碼中完成的Pandas操作。這些操作可以有效地解決特定的任務,並以一種好的方式給出結果。 從列表中創建字典 我有一份商品清單,我想看看它們的分佈情況。更具體地説:希望得到唯一值以及它們在列表中出現的次數。 Python字典是以這種格式存儲數據的好方法。鍵將是字典,值是出現的次數。 這裏可以使用value_counts和to_dict函數,這項任務可以在一行代碼中完成

機器學習 , 人工智能 , pandas , Python

收藏 評論

deephub - 從 Pandas 轉向 Polars:新手常見的10 個問題與優化建議

Polars 速度快、語法現代、表達力強,但很多人剛上手就把它當 Pandas 用,結果性能優勢全都浪費了。 下面是新手最容易犯的 10 個錯誤,以及對應的解決思路。 1、直接 read_csv而不用 scan_* 新手拿到一個大 CSV,上來就這麼寫: df=pl.read_csv("events.csv") 這會把整個文件一口氣塞進內存。文件一旦上了 GB 級別,內存直接爆掉,性能也

機器學習 , 人工智能 , pandas , Python

收藏 評論

min2k - 一天一個Python庫:Pandas - 拿捏數據的N種姿勢

引言 歡迎來到【一天一個Python庫】系列!在上一篇中我們介紹了數據可視化的畫筆 Matplotlib, 今天我們要認識的是 Python 數據處理與分析領域的靈魂工具 — Pandas。 如果説 NumPy 負責“算數據”,那麼 Pandas 就是負責“處理和分析數據”。 一、什麼是 Pandas? Pandas 是 Python 中最流行

數據 , 神經網絡 , 人工智能 , pandas , Python

收藏 評論

霍格沃茲測試學院 - 使用pandas高效讀取篩選csv數據

前言 在數據分析和數據科學領域中,Pandas 是 Python 中最常用的庫之一,用於數據處理和分析。本文將介紹如何使用 Pandas 來讀取和處理 CSV 格式的數據文件。 什麼是 CSV 文件? CSV(逗號分隔值)文件是一種常見的文本文件格式,用於存儲表格數據,其中每行表示一條記錄,字段之間用逗號或其他特定分隔符分隔。CSV 文件可以使用任何文本編輯器打開,並且易於閲讀和編輯。 環境準備

軟件測試 , 測試開發 , pandas , Python

收藏 評論

蔣點數分 - 【Uber 面試真題】SQL :每個星期連續5星評價最多的司機

大家好,我是“蔣點數分”,多年以來一直從事數據分析工作。從今天開始,與大家持續分享關於數據分析的學習內容。 本文是第一篇,也是【SQL 週週練】系列的第一篇。該系列是挑選或自編具有一些難度的 SQL 題目,一週至少更新一篇。後續創作的內容,初步規劃的方向包括: 後續內容規劃 1.利用 Streamlit 實現 Hive 元數據展示、SQL 編輯器、 結合Docker 沙箱實現數據分析 Agent

hive , pandas , 數據分析 , SQL , Python

收藏 評論

Python技術大本營 - 推薦七個Python效率工具!

為了提高效率,我們在平時工作中常會用到一些Python的效率工具,Python作為比較老的編程語言,它可以實現日常工作的各種自動化。為了更便利的開發項目,這裏給大家推薦幾個Python的效率工具。 1、Pandas-用於數據分析 Pandas是一個強大的分析結構化數據的工具集;它的使用基礎是Numpy(提供高性能的矩陣運算);用於數據挖掘和數據分析,同時也提供數據清洗功能。 #1、安裝包 $p

flask , scrapy , pandas , requests , Python

收藏 評論

deephub - 12 種 Pandas 測試技巧,讓數據處理少踩坑

12 種 Pandas 測試技巧,讓數據處理少踩坑 12 種測試實踐 —— fixtures、schemas、property-based tests、snapshots、performance guards —— 每週能省不少排查問題的時間 Pandas 的 bug 有個特點,就是不會在控制枱裏大喊大叫,而是悄悄藏在 dtype 轉換、索引操作、時區處理的某個角落,或者那種跑十萬次才能復現一次

機器學習 , 人工智能 , pandas , 數據分析 , Python

收藏 評論

deephub - Pandas 缺失值最佳實踐:用 pd.NA 解決缺失值的老大難問題

做數據處理的都知道,一個 NaN 就能讓整個數據清洗流程崩盤。過濾條件失效、join 結果錯亂、列類型莫名其妙變成 object——這些坑踩過的人應該都有所體會。而Pandas 引入的可空數據類型(nullable dtypes)就是來幫我們填這個坑的。 現在整數列終於能表示缺失了,布爾列不會再退化成 object,字符串列的行為也更可控,這樣我們代碼的邏輯可以變得更清晰。 NumPy 整數類型

機器學習 , numpy , 人工智能 , pandas , Python

收藏 評論

deephub - 使用GPU 加速 Polars:高效解決大規模數據問題

Polars 最近新開發了一個可以支持 GPU 加速計算的執行引擎。這個引擎可以對超過 100GB 的數據進行交互式操作能。本文將詳細討論 Polars 中DF的概念、GPU 加速如何與 Polars DF協同工作,以及使用新的 CUDA 驅動執行引擎可能帶來的性能提升。 Polars 核心概念 Polars 的核心功能是創建和操作DF,這些DF可以被視為具有高級功能的電子表格。以下是一個簡單的

機器學習 , 人工智能 , pandas , Python

收藏 評論

deephub - 15個基本且常用Pandas代碼片段

Pandas提供了強大的數據操作和分析功能,是數據科學的日常基本工具。在本文中,我們將介紹最常用的15個Pandas代碼片段。這些片段將幫助簡化數據分析任務,從數據集中提取有價值的見解。 1、過濾數據 Pandas提供了多種方法來過濾數據。 import pandas as pd # Create a DataFrame data = {'Name': ['Alice', 'Bob',

機器學習 , 人工智能 , pandas , 數據分析

收藏 評論

deephub - Pandas DataFrame 數據存儲格式比較

Pandas 支持多種存儲格式,在本文中將對不同類型存儲格式下的Pandas Dataframe的讀取速度、寫入速度和大小的進行測試對比。 創建測試Dataframe 首先創建一個包含不同類型數據的測試Pandas Dataframe。 import pandas as pd import random import string import numpy as np # Conf

機器學習 , 人工智能 , pandas , Python

收藏 評論

deephub - 告別低效代碼:用對這10個Pandas方法讓數據分析效率翻倍

對於 Python 數據處理的初學者而言,早期的 Pandas 代碼往往充斥着基礎的 .head() 、 .dropna() 調用以及大量的在線搜索。然而,掌握一些核心的處理模式後,Pandas 將展現出其快速、表達力強且優雅的特性。 本文將介紹 10 個在數據處理中至關重要的 Pandas 技術模式。這些模式能夠顯著減少調試時間,提升代碼的可維護性,並構建更加清晰的數據處理流水線。 使用

機器學習 , 數據挖掘 , 人工智能 , pandas , Python

收藏 評論

AMIN - 一天一個Python庫:Pandas - 拿捏數據的N種姿勢

引言 歡迎來到【一天一個Python庫】系列!在上一篇中我們介紹了數據可視化的畫筆 Matplotlib, 今天我們要認識的是 Python 數據處理與分析領域的靈魂工具 — Pandas。 如果説 NumPy 負責“算數據”,那麼 Pandas 就是負責“處理和分析數據”。 一、什麼是 Pandas? Pandas 是 Python 中最流行的數據分析庫,它基於 NumPy 構建,提

pandas , Python

收藏 評論

霍格沃茲測試學院 - Pandas read_csv 參數詳解

前言 在使用 Pandas 進行數據分析和處理時,read_csv 是一個非常常用的函數,用於從 CSV 文件中讀取數據並將其轉換成 DataFrame 對象。read_csv 函數具有多個參數,可以根據不同的需求進行靈活的配置。本文將詳細介紹 read_csv 函數的各個參數及其用法,幫助大家更好地理解和利用這一功能。 常用參數概述 pandas的 read_csv 函數用於讀取CSV文件。以

軟件測試 , 測試開發 , pandas , Python

收藏 評論

TeamCode - Python 教程:從 Python 爬蟲到數據分析

數據分析是 Python 編程廣泛應用的領域之一,數據分析員藉助 Python 語法簡單明晰、應用範圍廣泛的特性,通過爬蟲、整合數據等多樣化的依賴與函數,進一步提高數據分析的能力與效率。 在這篇教程中,同學將整合之前所學習的 Python 爬蟲技巧,進一步學習如何將所爬取的數據儲存到 CSV 文件中。 學習 Python 爬蟲,手把手通過 Python 入門爬取網頁信息: https://z

beautifulsoup , pandas , 數據分析 , 爬蟲 , Python

收藏 評論