Python如何对CSV数据做清洗_数据预处理常用操作【教程】

admin 百科 2025-12-18 26

Python清洗CSV数据的核心步骤是：用pandas读取并观察数据结构；统一处理缺失值（替换占位符、填充或删除）；标准化日期、数字、文本格式；剔除重复与异常值；最后保存为UTF-8-SIG编码的干净CSV。

Python如何对CSV数据做清洗_数据预处理常用操作【教程】-第1张图片-佛山资讯网

Python处理CSV数据清洗和预处理，核心是用pandas读取、识别问题、统一格式、填充或剔除异常，再输出干净数据。不复杂但容易忽略细节。

读取CSV并初步观察数据

先用pandas加载文件，快速查看结构和典型值，判断是否有乱码、列名错位、空行等问题：

pd.read_csv("data.csv", encoding="utf-8") —— 明确指定编码，避免中文乱码；若报错可试encoding="gbk"
df.head(5) 和 df.info() 查看前几行和每列数据类型、非空数量
df.describe(include="all") 快速了解数值与文本列的分布（如唯一值数、常见值）

处理缺失值与空字段

缺失值常见于空单元格、"NULL"、"N/A"、空白字符串等，需统一识别再处理：

用 df.replace({"": pd.NA, "NULL": pd.NA, "N/A": pd.NA}) 把常见占位符转为标准缺失标记
用 df.isna().sum() 查看各列缺失数量
数值列可填均值：df["age"].fillna(df["age"].mean(), inplace=True)
文本列常用众数或固定值（如"未知"）：df["city"].fillna(df["city"].mode()[0], inplace=True)
缺失过多（如>70%）且不可靠的列，考虑直接删：df.drop(columns=["remark"], inplace=True)

统一格式：日期、数字、文本标准化

同一含义的数据常以多种格式混存，需归一化才能后续分析：

标签： excel python 编码中文乱码 csv 数据清洗币

本文地址： https://www.fsgp.cn/p/baike/72745.html

版权声明：除非特别标注，否则均为本站原创文章，转载时请以链接形式注明文章出处。

上一篇6G对远程医疗和教育有何影响 6G和5G的应用场景差异分析

下一篇FCC 认证曝光！Xiaomi 17 Ultra 国际版确认即将登场

发布评论（0条评论）

还木有评论哦，快来抢沙发吧~