Python清洗CSV数据的核心步骤是:用pandas读取并观察数据结构;统一处理缺失值(替换占位符、填充或删除);标准化日期、数字、文本格式;剔除重复与异常值;最后保存为UTF-8-SIG编码的干净CSV。

Python处理CSV数据清洗和预处理,核心是用pandas读取、识别问题、统一格式、填充或剔除异常,再输出干净数据。不复杂但容易忽略细节。
读取CSV并初步观察数据
先用pandas加载文件,快速查看结构和典型值,判断是否有乱码、列名错位、空行等问题:
- pd.read_csv("data.csv", encoding="utf-8") —— 明确指定编码,避免中文乱码;若报错可试encoding="gbk"
- df.head(5) 和 df.info() 查看前几行和每列数据类型、非空数量
- df.describe(include="all") 快速了解数值与文本列的分布(如唯一值数、常见值)
处理缺失值与空字段
缺失值常见于空单元格、"NULL"、"N/A"、空白字符串等,需统一识别再处理:
- 用 df.replace({"": pd.NA, "NULL": pd.NA, "N/A": pd.NA}) 把常见占位符转为标准缺失标记
- 用 df.isna().sum() 查看各列缺失数量
- 数值列可填均值:df["age"].fillna(df["age"].mean(), inplace=True)
- 文本列常用众数或固定值(如"未知"):df["city"].fillna(df["city"].mode()[0], inplace=True)
- 缺失过多(如>70%)且不可靠的列,考虑直接删:df.drop(columns=["remark"], inplace=True)
统一格式:日期、数字、文本标准化
同一含义的数据常以多种格式混存,需归一化才能后续分析:
标签: excel python 编码 中文乱码 csv 数据清洗 币
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。
还木有评论哦,快来抢沙发吧~