• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    pandas中DataFrame检测重复值的实现

    本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

    DataFrame.duplicated(subset=None, keep='first')

    subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

    keep:

    下面举例

    df = pd.DataFrame({
        'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
        'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
        'rating': [4, 4, 3.5, 15, 5]
    })
    df 
    

    # 默认为keep="first",第一条重复的为False,后面重复的为True
    # 一般不会设置keep,保持keep为默认值。
    df.duplicated()
    
    结果
    0    False
    1     True
    2    False
    3    False
    4    False
    dtype: bool
    
    # keep="last",,最后一条重复的为False,后面重复的为True
    df.duplicated(keep="last")
    
    结果
    0     True
    1    False
    2    False
    3    False
    4    False
    dtype: bool
    
    # keep=False,,所有重复的为True
    df.duplicated(keep=False)
    
    结果
    0     True
    1     True
    2    False
    3    False
    4    False
    dtype: bool
    
    # sub是子,subset是子集
    # 标记只要brand重复为重复值。
    df.duplicated(subset='brand')
    
    结果
    
    0    False
    1     True
    2    False
    3     True
    4     True
    dtype: bool
    
    
    # 只要brand重复brand和style重复的为重复值。
    df.duplicated(subset=['brand','style'])
    
    结果
    
    0    False
    1     True
    2    False
    3    False
    4     True
    dtype: bool
    
    
    # 显示重复记录,通过布尔索引
    df[df.duplicated()]
    

    # 查询重复值的个数。
    df.duplicated().sum()
    
    结果
    1
    

    到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

    您可能感兴趣的文章:
    • Pandas实现Dataframe的重排和旋转
    • Pandas实现Dataframe的合并
    • pandas中DataFrame数据合并连接(merge、join、concat)
    • 教你漂亮打印Pandas DataFrames和Series
    • 使用pandas忽略行列索引,纵向拼接多个dataframe
    • Pandas.DataFrame转置的实现
    • Pandas中DataFrame交换列顺序的方法实现
    • 详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据
    • Pandas中两个dataframe的交集和差集的示例代码
    • Pandas DataFrame求差集的示例代码
    • 浅谈pandas dataframe对除数是零的处理
    • Pandas中DataFrame数据删除详情
    上一篇:python 中的@运算符使用
    下一篇:使用python批量生成insert语句的方法
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    pandas中DataFrame检测重复值的实现 pandas,中,DataFrame,检测,重复,