Pandas分组后数据筛选失效：为什么groupby后仍包含筛选条件之外的数据？

wufei123 2025-03-12 阅读:1 评论:0

pandas分组后数据筛选失效的原因及解决方法在使用pandas进行数据分析时，常常需要进行数据筛选和分组聚合操作。然而，有时会遇到一种情况：在groupby操作之前已经对数据进行了筛选，但groupby后的结果却包含了筛选条件之外的数据...

pandas分组后数据筛选失效的原因及解决方法

在使用pandas进行数据分析时，常常需要进行数据筛选和分组聚合操作。然而，有时会遇到一种情况：在groupby操作之前已经对数据进行了筛选，但groupby后的结果却包含了筛选条件之外的数据，这让人困惑不已。本文将针对这个问题，结合具体的代码示例进行分析和解答。

问题描述：

用户在使用pandas进行数据处理时，希望对“点击量”不为0的数据进行筛选，再根据“版本”、“分层”、“资源名称”进行分组求和。然而，即使在groupby之前已经进行了筛选(data_df["点击量"] != 0)，groupby后的结果仍然包含“点击量”为0的数据。重置索引也未能解决问题。

代码片段：

用户提供的代码片段如下：

# 上线天数分层
data_hot_cli=data_df[
    (data_df["销售盘量"]==0)&
    (data_df["点击量"]!=0)
][["版本","资源名称", "上线天数","点击量","下载量","销售量","真实收入","原始收入"]]
data_hot_cli["分层"]=pd.cut(data_hot_cli["上线天数"],bins=[0,15,23,27,45,70])
data_hot_cli.reset_index(inplace=true,drop=true)
del data_hot_cli['上线天数']
data_hot_cli["真实收入"]=data_hot_cli["真实收入"].astype("int")
data_hot_cli["原始收入"]=data_hot_cli["原始收入"].astype("int")
# data_hot_cli=data_hot_cli.groupby(["版本","分层","资源名称"]).sum()
# data_hot_cli=data_hot_cli.loc[data_hot_cli["点击量"]!=0]
# data_hot_cli.reset_index(inplace=true)
data_hot_cli

问题根源及解决方法：

造成这个问题的原因在于，groupby 操作是基于原始数据进行的，即使在 groupby 之前进行了筛选，groupby 仍然会对所有数据进行分组，然后再进行聚合计算。因此，筛选操作并不会影响 groupby 的行为。

为了解决这个问题，需要在 groupby 操作之后再进行一次筛选。一种有效的解决方法是在groupby之后，再对结果进行筛选，如下所示：

data_hot_cli_grouped = data_hot_cli.groupby(["版本","分层","资源名称"]).sum()
data_hot_cli_grouped = data_hot_cli_grouped[data_hot_cli_grouped["点击量"] != 0]

这段代码先进行分组求和，然后对结果进行筛选，确保最终结果只包含“点击量”不为0的数据。这样就能避免在groupby操作中包含不符合筛选条件的数据。

以上就是Pandas分组后数据筛选失效：为什么groupby后仍包含筛选条件之外的数据？的详细内容，更多请关注知识资源分享宝库其它相关文章！

版权声明

本站内容来源于互联网搬运，
仅限用于小范围内传播学习，请在下载后24小时内删除，
如果有侵权内容、不妥之处，请第一时间联系我们删除。敬请谅解!
E-mail：dpw1001@163.com

上一篇：Python读取Excel测试用例时出现list index out of range错误该如何解决？ 下一篇：如何有效测试软件系统中自定义类对象及其属性值？

Pandas分组后数据筛选失效：为什么groupby后仍包含筛选条件之外的数据？

版权声明

发表评论

最近文章

茄子是吸油大户炒茄子时想要少油以下哪种办法更有效蚂蚁庄园3月13日答案早知道（茄子.哪种.大户.庄园.早知道.....）

凡人传说祭剑效率高吗提升凡人传说祭剑效率的方法（凡人.效率.提升.方法.效率高.....）

凡人传说装备属性如何提升凡人传说装备属性详解（凡人.属性.装备.详解.提升.....）

随机文章

热门文章

闪耀暖暖靡城永恒怎么样-闪耀暖暖靡城永恒套装介绍（闪耀.暖暖.套装.介绍.....）

BioWare埃德蒙顿工作室面临关闭危机，龙腾世纪制作总监辞职引关注（龙腾.总监.辞职.危机.面临.....）

奇迹暖暖诸星梦眠怎么样-奇迹暖暖诸星梦眠套装介绍（星梦.暖暖.奇迹.套装.介绍.....）

龙族卡塞尔之门昂热角色详解-龙族卡塞尔之门昂热全面介绍（之门.龙族.卡塞尔.详解.角色.....）

斗魔骑士哪个角色强势-斗魔骑士角色推荐与实力解析（骑士.角色.强势.解析.实力.....）

最近发表

标签列表

Pandas分组后数据筛选失效：为什么groupby后仍包含筛选条件之外的数据？

版权声明

相关阅读

深度学习图像识别：少量样本训练ResNet50模型效果差，怎么办？

DrissionPage库启动报错：如何解决“参数错误”问题？

JWT多账号登录下如何优雅地处理旧Token失效？

Geany运行Python代码报错“No module named 'matplotlib'”，但pip list显示已安装，这是为什么？

Python事件驱动编程：如何利用asyncio实现高效的异步IO？

Python项目中如何用.gitignore正确忽略venv虚拟环境？

发表评论

最近文章

随机文章

热门文章

最近发表

标签列表