Pandas高级合并：整合不同时间间隔的DataFrame

admin 百科 2025-12-09 18

本教程详细阐述了如何使用pandas合并具有不同时间步长的dataframe，尤其是在处理不规则时间序列数据时。核心方法是利用 `pd.merge` 的 `how='outer'` 参数，确保所有数据帧中的独特时间戳都被保留，并对缺失值使用 `nan` 进行填充，从而实现数据的完整对齐和整合。

在数据分析和处理中，我们经常会遇到需要整合来自不同来源、但都基于时间序列的数据。这些数据可能以不同的采样频率或时间步长记录，例如10分钟、15分钟或30分钟间隔。直接使用简单的拼接（pd.concat）或内连接（pd.merge 默认行为）往往无法达到预期效果，因为它可能导致数据丢失或无法正确对齐。本教程将介绍如何利用Pandas的强大合并功能，特别是 pd.merge(how='outer')，来高效地解决这类问题，确保所有时间点的数据都被妥善保留。

核心问题与挑战

当合并多个具有不同时间戳间隔的DataFrame时，主要挑战在于：

保留所有独特的时间戳： 无论某个时间戳只存在于一个DataFrame中，还是存在于多个DataFrame中，最终结果都应包含所有这些时间戳。
正确对齐数据： 对于存在于多个DataFrame中的时间戳，其对应的数据应被正确合并到同一行。
处理缺失值： 如果某个时间戳在某个DataFrame中不存在，但在其他DataFrame中存在，则合并后该DataFrame对应列的数据应显示为 NaN。

传统的 pd.concat 函数通常用于堆叠DataFrame，而 pd.merge 的默认 inner 连接则只保留在所有DataFrame中都存在的键。这两种方法都无法满足上述“保留所有独特时间戳并填充 NaN”的需求。