Python如何对CSV数据做清洗_数据预处理常用操作【教程】

admin 百科 16
Python清洗CSV数据的核心步骤是:用pandas读取并观察数据结构;统一处理缺失值(替换占位符、填充或删除);标准化日期、数字、文本格式;剔除重复与异常值;最后保存为UTF-8-SIG编码的干净CSV。

Python如何对CSV数据做清洗_数据预处理常用操作【教程】-第1张图片-佛山资讯网

Python处理CSV数据清洗和预处理,核心是用pandas读取、识别问题、统一格式、填充或剔除异常,再输出干净数据。不复杂但容易忽略细节。

读取CSV并初步观察数据

先用pandas加载文件,快速查看结构和典型值,判断是否有乱码、列名错位、空行等问题:

  • pd.read_csv("data.csv", encoding="utf-8") —— 明确指定编码,避免中文乱码;若报错可试encoding="gbk"
  • df.head(5)df.info() 查看前几行和每列数据类型、非空数量
  • df.describe(include="all") 快速了解数值与文本列的分布(如唯一值数、常见值)

处理缺失值与空字段

缺失值常见于空单元格、"NULL"、"N/A"、空白字符串等,需统一识别再处理:

  • df.replace({"": pd.NA, "NULL": pd.NA, "N/A": pd.NA}) 把常见占位符转为标准缺失标记
  • df.isna().sum() 查看各列缺失数量
  • 数值列可填均值:df["age"].fillna(df["age"].mean(), inplace=True)
  • 文本列常用众数或固定值(如"未知"):df["city"].fillna(df["city"].mode()[0], inplace=True)
  • 缺失过多(如>70%)且不可靠的列,考虑直接删:df.drop(columns=["remark"], inplace=True)

统一格式:日期、数字、文本标准化

同一含义的数据常以多种格式混存,需归一化才能后续分析:

标签: excel python 编码 中文乱码 csv 数据清洗

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~