• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    pandas || df.dropna() 缺失值删除操作

    df.dropna()函数用于删除dataframe数据中的缺失数据,即 删除NaN数据.

    官方函数说明:

    DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
     Remove missing values.
     See the User Guide for more on which values are considered missing, 
     and how to work with missing data.
    Returns
     DataFrame
     DataFrame with NA entries dropped from it.
    

    参数说明:

    Parameters 说明
    axis 0为行 1为列,default 0,数据删除维度
    how {‘any', ‘all'}, default ‘any',any:删除带有nan的行;all:删除全为nan的行
    thresh int,保留至少 int 个非nan行
    subset list,在特定列缺失值处理
    inplace bool,是否修改源文件

    测试:

    >>>df = pd.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'],
              "toy": [np.nan, 'Batmobile', 'Bullwhip'],
              "born": [pd.NaT, pd.Timestamp("1940-04-25"),
                  pd.NaT]})
    >>>df
        name    toy    born
    0  Alfred    NaN    NaT
    1  Batman Batmobile 1940-04-25
    2 Catwoman  Bullwhip    NaT

    删除至少缺少一个元素的行:

    >>>df.dropna()
       name    toy    born
    1 Batman Batmobile 1940-04-25

    删除至少缺少一个元素的列:

    >>>df.dropna(axis=1)
        name
    0  Alfred
    1  Batman
    2 Catwoman

    删除所有元素丢失的行:

    >>>df.dropna(how='all')
        name    toy    born
    0  Alfred    NaN    NaT
    1  Batman Batmobile 1940-04-25
    2 Catwoman  Bullwhip    NaT

    只保留至少2个非NA值的行:

    >>>df.dropna(thresh=2)
        name    toy    born
    1  Batman Batmobile 1940-04-25
    2 Catwoman  Bullwhip    NaT

    从特定列中查找缺少的值:

    >>>df.dropna(subset=['name', 'born'])
        name    toy    born
    1  Batman Batmobile 1940-04-25

    修改原数据:

    >>>df.dropna(inplace=True)
    >>>df
       name    toy    born
    1 Batman Batmobile 1940-04-25

    以上。

    补充:Pandas 之Dropna滤除缺失数据

    约定:

    import pandas as pd
    import numpy as np
    from numpy import nan as NaN

    滤除缺失数据

    pandas的设计目标之一就是使得处理缺失数据的任务更加轻松些。pandas使用NaN作为缺失数据的标记。

    使用dropna使得滤除缺失数据更加得心应手。

    一、处理Series对象

    通过**dropna()**滤除缺失数据:

    se1=pd.Series([4,NaN,8,NaN,5])
    print(se1)
    se1.dropna()

    代码结果:

    0  4.0
    1  NaN
    2  8.0
    3  NaN
    4  5.0
    dtype: float64
    0  4.0
    2  8.0
    4  5.0
    dtype: float64
    

    通过布尔序列也能滤除:

    se1[se1.notnull()]

    代码结果:

    0  4.0
    2  8.0
    4  5.0
    dtype: float64

    二、处理DataFrame对象

    处理DataFrame对象比较复杂,因为你可能需要丢弃所有的NaN或部分NaN。

    df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]])
    df1

    代码结果:

    0 1 2
    0 1.0 2.0 3.0
    1 NaN NaN 2.0
    2 NaN NaN NaN
    3 8.0 8.0 NaN

    默认滤除所有包含NaN:

    df1.dropna()

    代码结果:

    0 1 2
    0 1.0 2.0 3.0

    传入**how=‘all'**滤除全为NaN的行:

    df1.dropna(how='all')

    代码结果:

    0 1 2
    0 1.0 2.0 3.0
    1 NaN NaN 2.0
    3 8.0 8.0 NaN

    传入axis=1滤除列:

    df1[3]=NaN
    df1

    代码结果:

    0 1 2 3
    0 1.0 2.0 3.0 NaN
    1 NaN NaN 2.0 NaN
    2 NaN NaN NaN NaN
    3 8.0 8.0 NaN NaN
    df1.dropna(axis=1,how="all")

    代码结果:

    0 1 2
    0 1.0 2.0 3.0
    1 NaN NaN 2.0
    2 NaN NaN NaN
    3 8.0 8.0 NaN

    传入thresh=n保留至少有n个非NaN数据的行:

    df1.dropna(thresh=1)

    代码结果:

    0 1 2 3
    0 1.0 2.0 3.0 NaN
    1 NaN NaN 2.0 NaN
    3 8.0 8.0 NaN NaN
    df1.dropna(thresh=3)

    代码结果:

    0 1 2 3
    0 1.0 2.0 3.0 NaN

    以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

    您可能感兴趣的文章:
    • 详解Pandas 处理缺失值指令大全
    • Pandas缺失值2种处理方式代码实例
    • pandas中read_csv的缺失值处理方式
    • 简单了解Pandas缺失值处理方法
    • pandas 缺失值与空值处理的实现方法
    上一篇:Macbook air m1安装python/anaconda全过程(图文)
    下一篇:基于python for in if 连着写与分开写的区别说明
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    pandas || df.dropna() 缺失值删除操作 pandas,df.dropna,缺失,值,删除,