Python如何从Excel处理数据_表格数据读取与清洗方法【教程】

admin 百科 2025-12-17 12

Python处理Excel数据核心是用pandas.read_excel安全读取，再清洗分析；需注意日期解析、空值处理、合并单元格填充、多层表头识别及导出限制。

Python如何从Excel处理数据_表格数据读取与清洗方法【教程】-第1张图片-佛山资讯网

Python处理Excel数据，核心是用pandas读取、清洗和分析，关键在于选对工具、避开常见坑（比如日期错乱、空值误判、合并单元格崩溃）。

别直接用xlrd或openpyxl手动解析——除非你要改样式。95%场景下，pandas.read_excel()够用且稳定。

指定sheet_name：支持字符串（表名）、整数（第几个表，从0开始）或列表（多表一起读）
跳过无效行：skiprows=2跳过前两行；skipfooter=1（旧版pandas）或用usecols限定列范围更可靠
处理日期：加parse_dates=['订单日期']，避免读成字符串；若自动识别失败，用date_parser自定义格式，如pd.to_datetime(df['日期'], format='%Y/%m/%d')
合并单元格？pandas会自动填充为NaN或重复值，读完立刻用df.fillna(method='ffill')向下填充（按列）

读进来先看df.info()和df.head()，重点盯三类问题：

空值：用df.isnull().sum()查每列空值数；删除整行用df.dropna(how='all')（全空才删），填充用df['销量'].fillna(df['销量'].median(), inplace=True)
异常值：数值列用df.describe()看min/max是否离谱；结合箱线图或df[(df['价格'] > df['价格'].quantile(0.99))]定位极值，再判断是删还是修正
格式混乱：如“¥1,234.50”这种带符号和逗号的文本型数字，用df['金额'] = df['金额'].str.replace(r'[¥,]', '').astype(float)