Parameters | 说明 |
---|---|
axis | 0为行 1为列,default 0,数据删除维度 |
how | {‘any', ‘all'}, default ‘any',any:删除带有nan的行;all:删除全为nan的行 |
thresh | int,保留至少 int 个非nan行 |
subset | list,在特定列缺失值处理 |
inplace | bool,是否修改源文件 |
测试:
>>>df = pd.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'], "toy": [np.nan, 'Batmobile', 'Bullwhip'], "born": [pd.NaT, pd.Timestamp("1940-04-25"), pd.NaT]})
>>>df name toy born 0 Alfred NaN NaT 1 Batman Batmobile 1940-04-25 2 Catwoman Bullwhip NaT
删除至少缺少一个元素的行:
>>>df.dropna() name toy born 1 Batman Batmobile 1940-04-25
删除至少缺少一个元素的列:
>>>df.dropna(axis=1) name 0 Alfred 1 Batman 2 Catwoman
删除所有元素丢失的行:
>>>df.dropna(how='all') name toy born 0 Alfred NaN NaT 1 Batman Batmobile 1940-04-25 2 Catwoman Bullwhip NaT
只保留至少2个非NA值的行:
>>>df.dropna(thresh=2) name toy born 1 Batman Batmobile 1940-04-25 2 Catwoman Bullwhip NaT
从特定列中查找缺少的值:
>>>df.dropna(subset=['name', 'born']) name toy born 1 Batman Batmobile 1940-04-25
修改原数据:
>>>df.dropna(inplace=True) >>>df name toy born 1 Batman Batmobile 1940-04-25
以上。
补充:Pandas 之Dropna滤除缺失数据
约定:
import pandas as pd import numpy as np from numpy import nan as NaN
滤除缺失数据
pandas的设计目标之一就是使得处理缺失数据的任务更加轻松些。pandas使用NaN作为缺失数据的标记。
使用dropna使得滤除缺失数据更加得心应手。
通过**dropna()**滤除缺失数据:
se1=pd.Series([4,NaN,8,NaN,5]) print(se1) se1.dropna()
代码结果:
0 4.0 1 NaN 2 8.0 3 NaN 4 5.0 dtype: float64 0 4.0 2 8.0 4 5.0 dtype: float64
通过布尔序列也能滤除:
se1[se1.notnull()]
代码结果:
0 4.0 2 8.0 4 5.0 dtype: float64
处理DataFrame对象比较复杂,因为你可能需要丢弃所有的NaN或部分NaN。
df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]) df1
代码结果:
0 | 1 | 2 | |
---|---|---|---|
0 | 1.0 | 2.0 | 3.0 |
1 | NaN | NaN | 2.0 |
2 | NaN | NaN | NaN |
3 | 8.0 | 8.0 | NaN |
默认滤除所有包含NaN:
df1.dropna()
代码结果:
0 | 1 | 2 | |
---|---|---|---|
0 | 1.0 | 2.0 | 3.0 |
传入**how=‘all'**滤除全为NaN的行:
df1.dropna(how='all')
代码结果:
0 | 1 | 2 | |
---|---|---|---|
0 | 1.0 | 2.0 | 3.0 |
1 | NaN | NaN | 2.0 |
3 | 8.0 | 8.0 | NaN |
传入axis=1滤除列:
df1[3]=NaN df1
代码结果:
0 | 1 | 2 | 3 | |
---|---|---|---|---|
0 | 1.0 | 2.0 | 3.0 | NaN |
1 | NaN | NaN | 2.0 | NaN |
2 | NaN | NaN | NaN | NaN |
3 | 8.0 | 8.0 | NaN | NaN |
df1.dropna(axis=1,how="all")
代码结果:
0 | 1 | 2 | |
---|---|---|---|
0 | 1.0 | 2.0 | 3.0 |
1 | NaN | NaN | 2.0 |
2 | NaN | NaN | NaN |
3 | 8.0 | 8.0 | NaN |
传入thresh=n保留至少有n个非NaN数据的行:
df1.dropna(thresh=1)
代码结果:
0 | 1 | 2 | 3 | |
---|---|---|---|---|
0 | 1.0 | 2.0 | 3.0 | NaN |
1 | NaN | NaN | 2.0 | NaN |
3 | 8.0 | 8.0 | NaN | NaN |
df1.dropna(thresh=3)
代码结果:
0 | 1 | 2 | 3 | |
---|---|---|---|---|
0 | 1.0 | 2.0 | 3.0 | NaN |
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。