Python-drop_duplicates

drop_duplicate方法是对DataFrame格式的数据，去除特定列下面的重复行。返回DataFrame格式的数据df.drop_duplicates(keep= , subset=[], inplace= )keep: {‘first’, ‘last’, False},默认为’first’保留项。保留第一个（first）/最后一个（last）/不保留（False）重复的项subset：默

嘿Dorothy

24946人浏览 · 2020-12-09 10:55:40

嘿Dorothy · 2020-12-09 10:55:40 发布

drop_duplicate方法是对DataFrame格式的数据，去除特定列下面的重复行。返回DataFrame格式的数据

df.drop_duplicates(keep= , subset=[], inplace= )

keep: {‘first’, ‘last’, False},默认为’first’
保留项。保留第一个（first）/最后一个（last）/不保留（False）重复的项
subset：默认所有列
指定的列。即需要删除哪些列中重复的项，列用’'说明，用,隔开
inplace : {‘True’，‘False’},默认为False
是否在原数据上修改。False表示另存一个副本

下面以例子来说明：
新建一个表格示例数据如下
在这里插入图片描述

1.删除重复行

删除type中重复的项，并保留第一次出现的数据

df.drop_duplicates(keep='first', subset=['type'])

在这里插入图片描述

删除month和type中同时重复的项，并保留最后一次出现的数据

df.drop_duplicates(keep='last', subset=['type', 'month'])

在这里插入图片描述

2.保留不重复行

保留id只出现过一次的数据

df.drop_duplicates(keep=False, subset=['id'])

在这里插入图片描述

3.保留重复行

保留id重复的数据

首先将2中不重复的数据保存，再从原始数据中删除2的数据

#  只出现一次的元素
output1 = df.drop_duplicates(keep=False, subset=['id'])
output1.to_csv('E:\\output1.csv', encoding='utf-8-sig', index=True)

output2 = df
#  删除output1中的元素
for i in range(0, len(output1)):
    output2.drop([output1.index[i]], inplace=True)
output2.to_csv('E:\\output2.csv', encoding='utf-8-sig', index=False)

在这里插入图片描述

完整代码

import pandas as pd

beer = pd.read_csv("E:\\test.csv", encoding='utf-8-sig', low_memory=False)
df = pd.DataFrame(beer)

output1 = df.drop_duplicates(...)
output1.to_csv('E:\\output1.csv', encoding='utf-8-sig', index=True)

output2 = df
for i in range(0, len(output1)):
    output2.drop([output1.index[i]], inplace=True)
output2.to_csv('E:\\output2.csv', encoding='utf-8-sig', index=False)

HarmonyOS开发者社区

讨论HarmonyOS开发技术，专注于API与组件、DevEco Studio、测试、元服务和应用上架分发等。

更多推荐

HarmonyOS应用代码混淆技术方案，为你的应用安全保驾护航

从 DevEco Studio 5.0.3.600 版本起，默认启用四项推荐的混淆选项：-enable-property-obfuscation、-enable-toplevel-obfuscation、-enable-filename-obfuscation 和 -enable-export-obfuscation。此外，启用-enable-property-obfuscation、-enabl

HarmonyOS开发者社区

告别深夜改Bug！CodeGenie帮你快速“驯服”鸿蒙编译错误！

内部测试期间，一位资深工程师感叹：“以前带新人最头疼的就是解决各种编译错误，现在AI能直接帮他们快速定位问题，不仅效率提升，学习曲线也平缓了许多。无论是拼写错误、类型不匹配，还是更隐蔽的语法问题，这些看似简单的错误往往需要花费大量时间排查。最重要的是，如果第一次修复后编译仍未通过，系统会自动提取新的报错信息，继续分析修复，直到完全通过为止。更让人崩溃的是，有些报错信息含糊其辞，你明明知道问题大概出

HarmonyOS开发者社区

智感握姿快速适配指南

HarmonyOS 智感握姿功能开发指南 1. 功能概述智感握姿功能利用 HarmonyOS 的 Motion 感知能力（SystemCapability.MultimodalAwareness.Motion），实时监测用户握持手机的手势（左手/右手/双手/未握持），可用于根据握持状态动态调整 UI 布局，提升单手操作体验。应用场景浮动按钮/面板根据握持手自动左右切换单手模式下的 UI 适配