pandas批量数据合并核心是统一列名、对齐索引、选对方式:一、用glob自动读取多CSV再concat纵向堆叠;二、用merge按字段关联,注意on/how参数及ID类型一致;三、多表用reduce链式merge;四、合并前必查类型、去空格大小写、去重。

用pandas做批量数据合并,核心就三点:统一列名、对齐索引、选对合并方式。别硬拼,先理清逻辑再写代码。
一、多个CSV文件自动读取并合并
常见场景是同一格式的多个表格(比如每月销售数据),存在一个文件夹里。不用一个个pd.read_csv,用glob+循环更省事:
- 用glob.glob("data/month_*.csv")匹配所有目标文件路径
- 用[pd.read_csv(f) for f in file_list]批量读取,生成DataFrame列表
- 用pd.concat(df_list, ignore_index=True)纵向堆叠,ignore_index=True重置行号,避免重复索引
小技巧:如果各表字段顺序不一致,concat前可统一列顺序,比如df = df[["id", "name", "amount"]]。
二、按字段精准合并(merge)不是简单拼接
两个表靠某个字段关联(如用户ID),要用pd.merge(),不是concat。关键参数要盯紧:
立即学习“Python免费学习笔记(深入)”;
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。
还木有评论哦,快来抢沙发吧~