国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Python 數據清洗教科書:40 個 Pandas 技巧解決 90% 的臟數據

開發 大數據
本文從實戰角度出發,將40個最常用的高頻方法劃分為 IO 操作、數據預覽、數據清洗、篩選索引、高級變換、統計聚合、數據合并、時間序列 八大核心模塊,帶你構建完整的數據處理知識體系。

從數據清洗到特征工程,從探索性分析(EDA)到復雜的數據透視,Pandas 提供了近乎完美的解決方案。 本文從實戰角度出發,將40個最常用的高頻方法劃分為 IO 操作、數據預覽、數據清洗、篩選索引、高級變換、統計聚合、數據合并、時間序列 八大核心模塊,帶你構建完整的數據處理知識體系。

一、 IO 操作:數據的輸入與輸出

這是數據處理的起點與終點。除了 CSV,掌握二進制格式(如 Parquet)能顯著提升大數據量的讀寫效率。

1. pd.read_csv() / pd.read_parquet()

用途:讀取數據。read_csv 是標配,但對于GB級別以上的數據,強烈推薦使用 read_parquet,體積更小,速度快 10 倍以上。

技巧:使用 chunksize 參數分塊讀取超大文件。

2. df.to_csv() / df.to_excel()

用途:數據落地。

技巧:設置 index=False 避免保存無意義的索引列;使用 float_format='%.2f' 控制浮點精度。

3. df.to_pickle()

用途:序列化保存。完美保留 DataFrame 的數據類型(如 Categorical),讀取速度極快,適合作為中間存儲格式。

4. pd.DataFrame.from_dict()

用途:從字典構建 DataFrame。

場景:爬蟲數據入庫或 API 響應數據解析時非常常用。

二、 數據預覽

在進行任何復雜操作前,必須先了解數據的全貌。

5. df.head() / df.tail()

用途:查看頭尾數據。不要只看前 5 行,偶爾看看 tail 能發現文件末尾的異常(如匯總行)。

6. df.info()

用途:查看內存占用、非空計數和字段類型。這是檢查 NaN 值和數據類型轉換的第一步。

7. df.describe()

用途:快速統計描述。

技巧:使用 include='all' 或 include=['O'] 來查看分類變量的統計信息(如唯一值數量)。

8. df.shape

用途:返回元組 (rows, columns),快速確認數據維度。

9. df.dtypes

用途:檢查每一列的數據類型。

10. df.value_counts()

用途:分類統計。

技巧:配合 normalize=True 直接查看占比,配合 dropna=False 查看缺失值的分布。

三、 數據清洗

現實世界的數據往往是“臟”的,這部分函數是數據工程師使用最高頻的工具。

11. df.dropna()

用途:刪除缺失值。

參數:thresh=n 可以保留至少有 n 個非空值的行,比單純的 how='any' 更靈活。

12. df.fillna()

用途:填充缺失值。

技巧:除了填充固定值,還可以使用 method='ffill'(前向填充)處理時間序列數據。

13. df.drop_duplicates()

用途:去重。

參數:subset=['col1', 'col2'] 可指定根據特定列去重,keep='last' 保留最新記錄。

14. df.astype()

用途:強制類型轉換。

技巧:將高基數的字符串列轉換為 'category' 類型,可節省高達 90% 的內存。

15. df.rename()

用途:重命名列名或索引。

代碼:df.rename(columns={'old_name': 'new_name'}, inplace=True)。

16. df.replace()

用途:值替換。支持字典映射替換,比 apply 更快。

四、 篩選與索引:精準定位

Pandas 的核心靈魂在于其強大的索引系統。

17. df.loc[]

用途:基于標簽(Label)的索引。

場景:df.loc[df['age'] > 25, ['name', 'salary']]。

18. df.iloc[]

用途:基于位置(Integer)的索引。

場景:df.iloc[:10, :3] 切片前10行、前3列。

19. df.query()

用途:SQL 風格的字符串查詢。

優勢:當篩選條件非常復雜時,query 語法比布爾索引更易讀。

代碼:df.query("age > 25 and department == 'Sales'")。

20. df.isin()

用途:判斷值是否存在于列表中,常用于多值篩選。

21. df.filter()

用途:根據列名或索引名篩選。

參數:支持 regex 正則表達式匹配列名,非常強大。

五、 高級變換與特征工程

這是區分新手與專家的分水嶺。

22. df.apply()

用途:沿軸應用函數。

注意:apply 循環效率較低,如果邏輯簡單,優先使用 Pandas 內置的向量化函數。

23. df.map()

用途:Series 專用的映射方法,常用于數據字典編碼轉換。

24. df.sort_values()

用途:排序。

參數:ascending=[True, False] 可對多列進行不同方向的排序。

25. df.set_index() / df.reset_index()

用途:索引管理。在 TimeSeries 分析中,通常將時間列 Set 為 Index。

26. df.drop()

用途:刪除行或列。需指定 axis=1 刪除列。

27. pd.cut() / pd.qcut()

用途:分箱(Binning)。

區別:cut 按數值間隔切分(等寬),qcut 按分位數切分(等頻)。

28. str 訪問器

用途:處理字符串列。

常用:df['col'].str.contains(), df['col'].str.split(), df['col'].str.replace()。

六、 統計與聚合

將數據從“明細表”變為“匯總表”。

29. df.groupby()

用途:分組。Pandas 的核心功能,遵循 Split-Apply-Combine 模式。

30. df.agg()

用途:聚合。

技巧:可以對不同列應用不同的聚合函數:df.groupby('dept').agg({'salary': 'mean', 'age': 'max'})。

31. pd.pivot_table()

用途:數據透視表。Excel 透視表的 Python 復刻版,支持多級索引匯總。

32. pd.crosstab()

用途:交叉表。計算分組頻率(頻數統計)時的快捷方式。

33. df.nlargest() / df.nsmallest()

用途:快速找出最大/最小的 Top N 記錄,比先 sort 再 head 效率更高。

七、 數據合并

處理多表關聯時的必備技能。

34. pd.merge()

用途:基于鍵(Key)的連接,類似于 SQL 的 JOIN。

參數:how='left'/'inner'/'outer', on='key'。

35. pd.concat()

用途:物理拼接。通常用于將結構相同的多個 DataFrame 上下(軸0)堆疊。

36. df.join()

用途:基于索引(Index)的快速合并。

八、 時間序列:Pandas 的看家本領

Pandas 最初就是為金融數據分析設計的,因此時間處理能力極強。

37. pd.to_datetime()

用途:智能轉換為時間類型。解析失敗時可使用 errors='coerce' 設為 NaT。

38. df.resample()

用途:重采樣。

場景:將“分鐘級”數據降采樣為“日級”數據(如 rule='1D'),并配合 .mean() 或 .sum() 使用。

39. df.shift()

用途:數據位移。

場景:計算同比、環比(即當前行減去上一行的數據)。

40. df.rolling()

用途:移動窗口。

場景:計算 5 日移動平均線(MA5):df['price'].rolling(window=5).mean()。

九、結語

掌握這 40 個方法,意味著你已經覆蓋了 90% 的日常數據處理需求。Pandas 的強大不僅在于函數數量,更在于其向量化運算的設計哲學。

在實際開發中,建議時刻關注內存使用與運行效率,盡量避免在 DataFrame 中使用 Python 原生的 for 循環,轉而使用上述內置的高效方法。

責任編輯:趙寧寧 來源: Python數智工坊
相關推薦

2025-03-21 08:20:00

數據清洗Python編程

2022-04-28 18:47:04

Pandas函數Python

2021-08-25 07:47:53

Pandas函數數據處理

2024-10-28 12:57:36

Pandas數據清洗

2023-03-24 16:41:36

Pandas技巧數據處理

2021-05-07 09:39:54

數據清洗方式

2023-10-16 23:53:22

數據索引工具

2022-03-08 14:10:10

數據分析數據集Python

2022-12-30 15:29:35

數據分析工具Pandas

2023-09-25 13:19:41

pandasPython

2024-01-03 14:54:56

PythonPandas數據處理工具

2018-02-08 09:37:27

Pandas大數據Spark

2020-07-10 09:49:53

數據清理數據分析查找異常

2017-02-28 10:54:40

Pandas

2019-09-11 14:34:13

排序算法數據科學

2020-08-14 10:57:49

開發技能代碼

2023-09-26 01:03:36

Pandas數據數據集

2018-04-03 12:07:53

數據清洗PandasNumpy

2013-03-20 16:23:53

數據清洗

2009-06-17 15:13:30

點贊
收藏

51CTO技術棧公眾號

国内精品美女在线观看| 欧美精品在欧美一区二区少妇| 亚洲女人天堂网| 久久99久久99精品免观看软件| 亚洲一区中文字幕| 成人av影院在线| 亚洲伊人婷婷| 日韩欧美亚洲范冰冰与中字| 久久亚洲精品人成综合网| 影音先锋男人的网站| 欧美mv日韩mv国产| 亚洲免费黄色| 男人av在线| 97超级碰碰人国产在线观看| www.成人在线| 在线观看亚洲精品福利片| 被灌满精子的波多野结衣| 在线观看欧美成人| 99精品视频在线播放观看| 一区二区免费| 污版网站在线观看| 亚洲自拍偷拍视频| 91精品国产一区二区人妖| 久久99精品久久久| 久久精品九色| avtt天堂资源网| 成人免费自拍视频| 日韩精品一二三四区| 国产午夜一区二区三区| 亚洲精品午夜av福利久久蜜桃| 国产网站在线免费观看| 日韩国产在线一区| 伊人久久久久久久久久久久久| 国产人久久人人人人爽| 久久亚洲国产| 欧美极品影院| 小草av在线播放| 国产精品视频二| 国产精品亚洲自拍| 亚洲第一页自拍| 国产女同性恋一区二区| 亚洲永久字幕| 欧美二区三区在线| 精品一区二区三区电影| 精品电影在线观看| 91亚洲精品一区二区乱码| 日韩成人精品一区| 国产高清精品二区| 免费在线国产视频| 日本在线三级| 国产精品无码av在线播放| 国精产品99永久一区一区| 欧美大片在线看免费观看| 精品视频在线免费| 亚洲精品国产一区二区精华液| 青青草精品视频| 欧美日韩天堂| 国产99久久精品一区二区300| 黄色网址免费在线观看| 在线观看高清av| 91欧美视频在线| 激情视频小说图片| 欧美在线一二三区| 国产在线观看一区| 91视频免费进入| 青青草精品毛片| 欧美xxxx18国产| 精品国产区一区二区三区在线观看| 欧美高清www午色夜在线视频| 午夜视频在线观看一区二区三区| 国产精品无人区| 久久久久免费观看| 久久精品视频一区二区| 99九九99九九九视频精品| 国产经典欧美精品| 蜜臀av一级做a爰片久久| 四虎成人精品永久免费av九九| 精品久久久久久中文字幕2017| 日本中文字幕不卡免费| 欧美极品少妇xxxxⅹ裸体艺术| 99久久99久久精品国产片桃花| 国产一区二区三区黄网站| 亚洲国产91视频| 亚洲午夜国产成人| 深夜视频一区二区| 久久视频免费| 亚洲精品不卡在线观看| 亚洲91网站| 成人一区而且| 久久尤物视频| 成人av中文字幕| 国产精品久久久久久久裸模| 亚洲欧洲国产日本综合| 精品动漫一区二区三区| 日韩欧美精品在线| 久久久国产视频91| 国产成人亚洲综合91| 欧美不卡1区2区3区| 操bbb操bbb| 91av入口| 国产美女在线观看| 网站一区二区| 欧美fxxxxxx另类| 高清视频一区二区| 亚洲欧美日韩精品久久久久| 欧美一区二区三区视频免费播放| 在线视频欧美日韩| 91精品国产综合久久久久久蜜臀 | 91福利视频在线观看| 黄色国产精品一区二区三区| 欧美,日韩,国产在线| 日韩欧美一级在线| 一级香蕉视频在线观看| 91精品产国品一二三产区| 第一sis亚洲原创| 国产精品一级在线| 在线一区二区三区| 午夜精品久久久久久99热| 亚洲午夜精品一区二区 | 精品国产一区二区三| 中文字幕一区二区三区四区在线视频| 美国成人毛片| 亚洲美女久久| 成人av一区二区三区| 日韩美女一区二区三区| 国产在线不卡精品| 成人黄色激情网站| 波多野结衣久久精品| 日本欧美久久久久免费播放网| 午夜视频久久久久久| 久久久伊人欧美| 国产淫片免费看| 日本一区二区三区视频在线| 欧美日韩免费观看一区=区三区| 亚洲精品福利视频网站| 裸体女人亚洲精品一区| 先锋影音欧美| 大黄网站在线观看| 久久久久欧美精品| 欧美精品1区2区| 欧美成人蜜桃| av网在线观看| 99热这里只有精品8| 一本到不卡免费一区二区| 日本久久精品视频| 欧美写真视频一区| 欧美超碰在线| 91久久精品网| 国产精品国产精品| 欧美videosex性极品hd| 免费在线看一区| 日韩在线观看网址| 美女一区二区三区视频| 欧美巨大xxxx| 久久综合久久综合久久综合| 国产精品久久一级| 精品国产亚洲在线| 9999在线观看| 精品国产一区二| 亚洲欧美在线另类| 99re在线观看| 欧美videossex| 不卡一区二区中文字幕| 国语自产在线不卡| 同心难改在线观看| 九九热在线视频观看这里只有精品| 这里只有精品丝袜| 超碰色偷偷男人的天堂| 欧美网站在线| 国产亚洲欧美另类中文| 最大av网站| 久久国产日韩| 2019亚洲男人天堂| 欧美日韩在线资源| 高清av一区二区| 国产欧美一区二区三区在线看| 麻豆传媒在线完整视频| 91小视频在线| 国产伦精品一区二区三区免费视频| 玛雅亚洲电影| 精品国产电影一区| 国产一二三四五| 91欧美在线| 久久精品国产一区二区电影| 在线一二三区| 91在线高清观看| 午夜精品视频在线观看一区二区| 欧美国产不卡| 日日噜噜噜夜夜爽亚洲精品 | 精品亚洲成a人片在线观看| 久久综合狠狠综合久久激情| 国产二区一区| 九色精品国产蝌蚪| 久久综合色影院| 超碰97国产精品人人cao| 亚洲观看高清完整版在线观看| 欧美激情国产精品日韩| 懂色av一区二区夜夜嗨| 一区二区视频在线播放| 日韩精品在线视频免费观看|