• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    浅谈pandas中对nan空值的判断和陷阱

    pandas基于numpy,所以其中的空值nan和numpy.nan是等价的。numpy中的nan并不是空对象,其实际上是numpy.float64对象,所以我们不能误认为其是空对象,从而用bool(np.nan)去判断是否为空值,这是不对的。

    对于pandas中的空值,我们该如何判断,并且有哪些我们容易掉进去的陷阱,即不能用怎么样的方式去判断呢?

    可以判断pandas中单个空值对象的方式:

    1、利用pd.isnull(),pd.isna();

    2、利用np.isnan();

    3、利用is表达式;

    4、利用in表达式。

    不可以用来判断pandas单个空值对象的方式:

    1、不可直接用==表达式判断;

    2、不可直接用bool表达式判断;

    3、不可直接用if语句判断。

    示例:

    import pandas as pd
    import numpy as np 
    na=np.nan 
    # 可以用来判断空值的方式
    pd.isnull(na) # True
    pd.isna(na) # True
    np.isnan(na) # True
    na is np.nan # True
    na in [np.nan] # True 
     
    # 不可以直接用来判断的方式,即以下结果和我们预期不一样
    na == np.nan # False
    bool(na) # True
    if na:
      print('na is not null') # Output: na is not null 
     
    # 不可以直接用python内置函数any和all
    any([na]) # True
    all([na]) #True

    总结

    numpy.nan是一个numpy.float64的非空对象,所以不能直接用bool表达式去判断,故一切依赖于布尔表达式的判断方式都不行,比如if语句。

    对于pandas中空值的判断,我们只能通过pandas或者numpy的函数和is表达式去判断,不能用python的内置函数any或all判断。

    比较奇怪的一点是pandas中空值的判断可以用is表达式判断,但是不能用==表达式判断。我们知道,对于is表达式,如果返回True,表示这两个引用指向的是同一个内存对象,即内存地址是一样的,一般同一个对象的不同引用的值也应该是相等的,所以一般is表达式为True,那么==表达式也为True。

    但是对于numpy.nan对象显然不是这样的,因为其可以用is表达式判断,即当is表达式为True时,但==表达式为False,这说明虽然不同numpy.nan变量引用指向的是同一个内存地址,但是其具有自己的值属性,值是不一样的,所以不能用==来判断,这点需要注意。

    补充:Pandas+Numpy 数据中空值的处理操作:判断、查找、填充及删除

    本文整理了数据中空值的处理操作,主要内容如下:

    为了便于描述,定义本文示例数据为如下结构:

    df = pd.DataFrame([[1, np.nan], [np.nan, 4], [5,6],[np.nan,7]],columns=["A","B"])
    df #定义示例数据df

    判断数据中是否有空值

    pandas isnull()函数

    df.isnull()  #返回df中各元素是否为空的同df大小的数据框 
    df["A"].isnull() #判断A列中空值情况 
    df[["A","B"]].isnull() # 指定多列进行空值判断,对于本文实例,下述代码效果同df.isnull() 

    pandas notnull()函数

    df.notnull()  #判断df中各元素是否 不是 空值 
    df["A"].isnull() #判断A列中非空值情况 
    df[["A","B"]].isnull() # 指定多列进行非空值判断,对于本文实例,下述代码效果同df.notnull() 

    numpy np.isnan() 函数

    np.isnan(df)  # 等同于df.isnull() 
    np.isnan(df["A"])  # 等同于 df["A"].isnull() 
    np.isnan(df[["A","B"]]) # 等同于 df[["A","B"]].isnull()

    统计空值/非空值数量

    df.isnull().sum() # 统计每列的空值数量 
    df.notnull().sum() # 统计每列的非空值数量 
     
    df["A"].count()   # A列 非空数量
    df.count()     # 统计所有列的非空值数量
    df.count(axis=1)  # 每行非空值数量,axis=1 
    df["A"].sum()   # A列 元素数值之和

    根据空值筛选数据

    # 筛选出A列为空的所有行
    df[df.A.isnull()]  
    df[df["A"].isnull()] 
     
    # 筛选出A列非空的所有行
    df[df.A.notnull()]  
    df[df["A"].notnull()]    
     
    # 筛选出df中存在空值的行
    df[df.isnull().values==True] 

    查找空值索引

    np.where(np.isnan(df))  # df中空值所在的行索引及列索引 
    np.where(np.isnan(df.A))  # df中A列空值所在的行索引

    删除空值 dropna()函数

    df.dropna()  # 删除存在空值的行,默认axis=0按行,how=any每行存在一个空值就执行删除行操作 
    df.dropna(axis=1) # 删除存在空值的列 
    df.dropna(how="all") # 删除所有列都为空值的特定行 
    df.dropna(how = "any")  # 删除存在空值的行
     
    # 对特定列空值进行删除 
    df.dropna(how="any",subset=["A"]) # 删除A列中存在空值的行
     df.dropna(how="any",subset=["A","B"]) # 删除A,B列中只要有一列存在空值的行
     
    #将删除操作作用于原数据,修改替换原数据
     df.dropna(how="all",subset=["A","B"],inplace=True) # 删除A,B列都为空值的行,并替换原数据

    填充空值fillna()函数

    # 用指定的数字来填充
    df.fillna(0)  # 用0来填充df中的空值
     
    # 用指定的函数统计值来填充
    df.fillna(df.mean()) # 用df中数据的平均值来填充空值 
    df.fillna(df.mean()["A"])  #指定用A列数据均值来填充df中空值 
    df.fillna(df.sum())  # 用df中数据的和来填充空值
     
    # 用字典来填充
    values = {'A': 0, 'B': 1}  # A列空值用0填充,B列空值用1填充
    df.fillna(value=values)  
     
    # 用指定字符串来填充空值
    df.fillna("unkown")
     
    # 不同的填充方式{‘backfill', ‘bfill', ‘pad', ‘ffill', None}
    # 每列的空值,用其列下方非空数值填充
    df.fillna(method="backfill") 
    df.fillna(method="bfill")  # 同backfill
    # 每列的空值,用其所在列上方非空数值填充,若上方没有元素,保持空值
    df.fillna(method="ffill") 
    df.fillna(method="pad")   # 同 ffill
     
    #limit参数设置填充空值的最大个数
    df.fillna(0,limit=1) # 每列最多填充1个空值,超过范围的空值依然为空
     
    #inplace参数空值是否修改原数据df
    df.fillna(0,inplace=True) # inplace为true,将修改作用于原数据

    以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

    您可能感兴趣的文章:
    • python中pandas.DataFrame对行与列求和及添加新行与列示例
    • python 使用pandas计算累积求和的方法
    • Python学习笔记之pandas索引列、过滤、分组、求和功能示例
    • python pandas消除空值和空格以及 Nan数据替换方法
    • Python pandas.DataFrame 找出有空值的行
    • python解决pandas处理缺失值为空字符串的问题
    • pandas 缺失值与空值处理的实现方法
    • pandas 添加空列并赋空值案例
    • Python pandas之求和运算和非空值个数统计
    上一篇:Pygame做一期吃豆子游戏的示例代码
    下一篇:pandas添加自增列的2种实现方案
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    浅谈pandas中对nan空值的判断和陷阱 浅谈,pandas,中对,nan,空值,