• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    pandas分组排序 如何获取第二大的数据

    Python用来做数据分析很方便,网上很多关于找数据中第二大的方法,但是大多数都是关于SQL的,于是我挑战一下用Python来做这件事(主要是SQL写的不好>_),上代码。

    1、数据我是自己编的

    在实际工作中应该从数据库中导入数据,如何从数据库导出数据,我之后会补充。

    import pandas as pd
    df = pd.DataFrame([
        {"class": 1, "name": "aa", "english": 120},
        {"class": 1, "name": "bb", "english": 110},
        {"class": 1, "name": "cc", "english": 110},
        {"class": 1, "name": "dd", "english": 110},
        {"class": 2, "name": "ee", "english": 120},
        {"class": 2, "name": "ff", "english": 140},
        {"class": 2, "name": "gg", "english": 130},
        {"class": 2, "name": "hh", "english": 130},
        {"class": 3, "name": "tt", "english": 130},
        {"class": 4, "name": "xx", "english": 130},
        {"class": 4, "name": "yy", "english": 130},
        {"class": 5, "name": "zz", "english": None},
      ])

    2、分组取第二大的数据

    def fun(df):
      # english数据去重
      sort_set = set(df["english"].values.tolist())
      if len(sort_set)=1:
        # 数据量小于等于1,无法取到第二大的数据
        return None
      else:
        # 取english中第二大的值
        sort_value = sorted(sort_set,reverse=True)[1]
        temp_df = df[df["english"]==sort_value]
        return temp_df
     
    df = df.groupby(by=["class"]).apply(fun).reset_index(drop=True)
    print(df)

    结果如下:

      class name english
    0 1 bb 110.0
    1 1 cc 110.0
    2 1 dd 110.0
    3 2 gg 130.0
    4 2 hh 130.0

    3、写完啦,就这么简单

    当然这还可以改为取最大、取最小、取第三大、等等......

    补充:pandas 按某一列A排序,按B和C两列分组,选择分组后A列值最大的行

    pandas 按某一列A排序,按B和C两列分组,选择分组后A列值最大的行

    一、需求

    按 updateTime 列倒序排序,按 B 和 C 两列分组,分组后选择最后更新的时间的那一行,并将结果加上新索引。

    二、代码

    import pandas as pd
    data = pd.read_csv('test.csv')
    df = pd.DataFrame(data)
    df = df.sort_values('updateTime', ascending=False).groupby(['B','C']).first().reset_index()

    first() 函数代表选择第一行,如果要选取多行,可以使用 head() 函数: head(5)表示选择前五行。

    如下例:

    import pandas as pd 
    data = pd.read_csv('test.csv',header = 0)
    df = pd.DataFrame(data) 
    # 按日期分组,分组后对 value 列从大到小排序,取每组前十行
    df = df.groupby('date', group_keys=False).apply(lambda x: x.sort_values('value', ascending=False)).groupby('date').head(10).reset_index()

    在不能直接使用sort_values() 函数时,使用 apply() 函数。

    以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

    您可能感兴趣的文章:
    • Pandas中DataFrame的分组/分割/合并的实现
    • pandas 实现分组后取第N行
    • pandas group分组与agg聚合的实例
    • pandas groupby分组对象的组内排序解决方案
    • pandas组内排序,并在每个分组内按序打上序号的操作
    • pandas 实现某一列分组,其他列合并成list
    上一篇:使用pandas忽略行列索引,纵向拼接多个dataframe
    下一篇:pandas 实现将两列中的较大值组成新的一列
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    pandas分组排序 如何获取第二大的数据 pandas,分组,排序,如何,获取,