Pandas中为每个类别重复显示所有分箱并填充零计数的教程

admin 百科 11

Pandas中为每个类别重复显示所有分箱并填充零计数的教程

本教程旨在解决如何在pandas dataframe中,为每个分类组(如“continent”)完整展示所有预定义的分箱(如“rank”)并对那些在原始数据中未出现的分类-分箱组合填充零计数。我们将通过创建辅助列、使用`groupby`进行聚合,并结合`unstack`和`stack`操作来高效实现这一目标,确保数据分析的完整性和可视化的一致性。

在数据分析实践中,我们经常需要对数据进行分类和分箱统计。然而,默认的聚合操作只会显示实际存在的数据组合。当我们需要确保所有预定义的分箱(bins)都呈现在每个类别(category)下,即使某些组合的计数为零时,就需要采取额外的步骤。这对于保持数据结构的一致性、进行可视化或后续分析至关重要。

1. 准备初始数据

首先,我们从一个包含分类(如“Continent”)和已分箱数据(如“Rank”)的DataFrame开始。这个DataFrame反映了每个大陆下不同分箱的原始记录。

import pandas as pd

# 示例原始数据
data = {
    'Continent': [
        'Asia', 'North America', 'Asia', 'Europe', 'Europe',
        'North America', 'Europe', 'Asia', 'Europe', 'Asia',
        'Europe', 'Europe', 'Asia', 'Australia', 'South America'
    ],
    'Rank': [
        '(15.753, 29.227]', '(2.212, 15.753]', '(2.212, 15.753]',
        '(2.212, 15.753]', '(15.753, 29.227]', '(56.174, 69.648]',
        '(15.753, 29.227]', '(2.212, 15.753]', '(15.753, 29.227]',
        '(2.212, 15.753]', '(29.227, 42.701]', '(29.227, 42.701]',
        '(2.212, 15.753]', '(2.212, 15.753]', '(56.174, 69.648]'
    ]
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

登录后复制

Pandas中为每个类别重复显示所有分箱并填充零计数的教程-第2张图片-佛山资讯网

2. 计算每个(分类,分箱)组合的计数

Pandas的groupby().count()方法默认需要一个列来进行计数。如果直接对多个列进行groupby().count(),它会尝试对所有非分组列进行计数。为了简单地获取每个组合的行数,我们可以添加一个辅助列。

# 添加一个辅助列,用于计数
df['count_col'] = 1

# 按 'Continent' 和 'Rank' 分组并计数
# as_index=False 将分组键保留为列
grouped_counts = df.groupby(['Continent', 'Rank'], as_index=False)['count_col'].count()

# 重命名计数列以便更清晰
grouped_counts = grouped_counts.rename(columns={'count_col': 'Count'})

print("\n按(Continent, Rank)分组后的计数(不含零值):")
print(grouped_counts)

登录后复制

此时,grouped_counts DataFrame只包含实际在原始数据中出现的Continent-Rank组合及其计数。例如,如果某个大陆的某个分箱没有数据,它将不会出现在这个结果中。

标签: go 聚合函数

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~