• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    使用pandas或numpy处理数据中的空值(np.isnan()/pd.isnull())

    最近在做数据处理的时候,遇到个让我欲仙欲死的问题,那就是数据中的空值该如何获取。

    我的目的本来是获取数据中的所有非零且非空值,然后再计算获得到的所有数据计算均值,再用均值把0和空值填上。这个操作让我意识到了i is None/np.isnan(i)/i.isnull()之间的差别,再此做简单介绍:

    1.关于np.nan:

    先明确一个问题,即空值的产生只有np.nan()一种方法。

    # np.nan()的一些奇妙性质:
     
    np.nan == np.nan
    >>> False
     
    np.isnan(np.nan)
    >>> True
     
    np.nan is None
    >>> False
     
    type(np.nan)
    >>> float

    总结一下:

    np.nan不是一个“空”对象,用 i is None判断是False;

    对某个值是否为空值进行判断,只能用np.isnan(i)函数,万万不可用 i == np.nan()来做,否则你会死的很惨的,因为空值并不能用判断相等的“==”正确识别(上例前两条);

    np.nan非空对象,其类型为基本数据类型float(是不是很神奇,我也不知道为什么要这样设计)

    2.np.isnan()和pd.isnull()何时使用:

    # 首先创建一个DataFrame:
    bb = pd.DataFrame({'a':[0,1,2,np.nan]})
    bb
     
    >>>     a
        0 0.0
        1 1.0
        2 2.0
        3 NaN
     
    # 先测试一下np.isnan()
    np.isnan(bb)
    >>>     a
        0 False
        1 False
        2 False
        3 True
    # 值得一提的是,如果想获悉整个DataFrame有无空值,可以在此基础上这样做:
     
    np.isnan(bb).all()
    >>> a    False
        dtype: bool          # 这行是指返回值的dtype
     
    # 再测试一下isnull()
    pd.isnull(bb)
    >>>     a
        0 False
        1 False
        2 False
        3 True

    由上可见,其实np.isnan()和pd.isnull()都可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中,np.isnan()多用于单个值的检验,pd.isnull()用于对一个DataFrame或Series(整体)的检验。

    此外,根据pandas官方文档和源代码,pandas提供的另一个函数pd.isna()与pd.isnull()完全一样。

    上面提到的any()/all()函数,请见pandas文档:

    https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.all.html#pandas.DataFrame.all

    https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.any.html#pandas.DataFrame.any

    其他与空值检测或删除相关的函数还有:notna()、fillna()、dropna()等等。实战中应灵活使用。

    补充:numpy中的nan(判断一个元素等于nan, 及nan安全函数 )

    Nunpy中的NaN

    多种方式创建nan(空值)

    import numpy as np
    np.nan
    nan
    np.NaN
    nan
    np.NAN
    nan
    

    判断是否存在空值

    x = np.array([1, 1, 8, np.nan, 10])
    np.nan in x
    
    False
    np.isin(np.nan, x)
    array(False)
    1 in x
    True
    np.isin(1, x)
    array(True)
    np.isnan(x)
    array([False, False, False,  True, False])
    x[-2] == np.nan, np.isnan(x[-2])
    (False, True)
    

    在np中nan需要用isnan这个函数来识别,还要注意:

    x
    array([ 1.,  1.,  8., nan, 10.])
    

    x 中所有的元素都变成了浮点型,这是因为nan是浮点型的。

    nan安全函数

    np.mean(x)
    nan
    np.nanmean(x)
    5.0
    

    此外max, min, median等都是默认非nan安全的,需要加上nan来标记nan安全。

    ps:pandas中是默认nan安全的。

    补充:Python 处理DataFrame数据 pd.isnull() np.isnan()的方式

    数据处理时,经常会遇到处理数据中的空值,涉及几个常用函数,pd.isnull(),pd.notnull(),np.isnan(),pd.notna(),pd.isna(),pd.fillna()、pd.dropna()等等.

    本文关注pd.isnull(),pd.notnull(),np.isnan(),pd.notna(),pd.isna()。

    总结:

    由下可知,np.isnan()和pd.isnull()都可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中,np.isnan()多用于单个值的检验,pd.isnull()用于对一个DataFrame或Series(整体)的检验。

    1.pd.isnull()

    pd.isnull()可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中,pd.isnull()用于对一个DataFrame或Series(整体)的检验。

    此外,根据pandas官方文档和源代码,pandas提供的另一个函数pd.isna()与pd.isnull()完全一样。

    # 首先创建一个DataFrame:
    df = pd.DataFrame({'a':[0,1,2,np.nan]})
    df
     
    >>>     a
        0 0.0
        1 1.0
        2 2.0
        3 NaN
     
    # 测试isnull()
    pd.isnull(df)
    >>>     a
        0 False
        1 False
        2 False
        3 True
     
    # 测试isna()
    pd.isna(df)
    >>>     a
        0 False
        1 False
        2 False
        3 True
     
    # 测试notnull()
    pd.notnull(df)
    >>>     a
        0 True
        1 True
        2 True
        3 False
     
    # 测试notna()
    pd.notna(df)
    >>>     a
        0 True
        1 True
        2 True
        3 False

    2.np.nan()

    判断是否为np.nan()。

    np.nan不是一个“空”对象,对某个值是否为空值进行判断,只能用np.isnan(i)函数。

    np.nan非空对象,其类型为基本数据类型float。

    np.nan()可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中,np.nan()多用于单个值的检验。

    np.nan == np.nan
    >>> False
     
    np.isnan(np.nan)
    >>> True
     
    type(np.nan)
    >>> float
     
    np.nan is None
    >>> False
     
    np.isnan(df)
    >>>     a
        0 False
        1 False
        2 False
        3 True

    以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

    您可能感兴趣的文章:
    • pandas中DataFrame检测重复值的实现
    • pandas DataFrame.shift()函数的具体使用
    • pandas取dataframe特定行列的实现方法
    • 利用python Pandas实现批量拆分Excel与合并Excel
    • Pandas DataFrame转换为字典的方法
    • 解决python3安装pandas出错的问题
    • Pandas爆炸函数的使用技巧
    • Pandas||过滤缺失数据||pd.dropna()函数的用法说明
    • 教你使用Pandas直接核算Excel中的快递费用
    • 教你漂亮打印Pandas DataFrames和Series
    上一篇:PyQt5爬取12306车票信息程序的实现
    下一篇:MATLAB 全景图切割及盒图显示的实现步骤
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    使用pandas或numpy处理数据中的空值(np.isnan()/pd.isnull()) 使用,pandas,或,numpy,处理,