Python使用Pandas进行复杂表结构处理的解决方案【教学】

admin 百科 13
Pandas处理复杂表结构的核心是理清数据关系与操作意图。需先识别宽表、嵌套列、混合粒度等真实结构类型,再用assign+pipe链式表达清晰逻辑,合并时用validate和indicator提前校验,透视时善用set_index/unstack/stack组合。

Python使用Pandas进行复杂表结构处理的解决方案【教学】-第1张图片-佛山资讯网

用Pandas处理复杂表结构,核心不是堆砌函数,而是理清“数据关系”和“操作意图”。多数卡点不在语法,而在没想清楚:这表到底是什么逻辑?要变换成什么形态?

一、识别表的真实结构类型

别急着写groupbymerge,先看表是哪种“复杂”:

  • 宽表带多级列头(如Excel里合并单元格生成的列名)→ 用df.columns = df.columns.droplevel(0)pd.MultiIndex.from_tuples()拆解
  • 行内含嵌套结构(如某列存JSON字符串、字典文本)→ 先ast.literal_eval()转为Python对象,再pd.json_normalize()展开
  • 混合粒度混存(如订单主表+明细行挤在同一张表,靠空值/重复值区分)→ 用df['id'].notna().cumsum()生成分组标识,再groupby分离主子数据

二、用assign + pipe替代链式赋值,保持逻辑可读

避免写一堆df['col'] = ...后又df = df[...],容易出错且难调试。推荐这样组织变换步骤:

df = (df
      .assign(order_date=lambda x: pd.to_datetime(x['date_str'], format='%Y%m%d'))
      .assign(amount_net=lambda x: x['amount'] * (1 - x['discount_rate']))
      .pipe(lambda x: x[x['order_date'] >= '2024-01-01'])
      .pipe(lambda x: x.groupby(['region', 'product']).agg({'amount_net': 'sum'}).reset_index())
)

登录后复制

每步命名清晰、可单独测试,pipe还能插入自定义清洗函数(比如去重逻辑封装成clean_phone(x))。

立即学习“Python免费学习笔记(深入)”;

标签: excel python js json 工具

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~