Pandas剔除混合数据中非数字的数据操作-巨人网络通讯

Pandas剔除混合数据中非数字的数据操作

我们日常拿到的数据，指标字段有时会混入非数字的数据，这时候会影响我们的操作

name	height
Hang	180
Ben	145
Cho	notknow
XIn	189

比如read_csv读入时，该列会以object形式读入，也不能直接进行计算，不然会出现如unsupported operand type(s) for +: 'float' and 'str'的错误

这时候就需要进行数据预处理，清除掉指标值中非数字的数据，这里我以2012_FederalElectionCommission_Database数据为例。

首先读入数据，可以发现提示：Columns (6) have mixed types，这里Columns (6)是指标值混有字符串格式数据

fec = pd.read_csv('P00000001-ALL.csv')
D:\SOFTWARE\Anaconda\lib\site-packages\IPython\core\interactiveshell.py:2717: DtypeWarning: Columns (6) have mixed types. Specify dtype option on import or set low_memory=False.
 interactivity=interactivity, compiler=compiler, result=result)

#先使用str打开数据
fec = pd.read_csv('P00000001-ALL.csv',dtype={'contbr_zip':str})
 
#然后使用str函数isdigit()判断单元格是否全为数字
 
fec_isnum=fec.iloc[:,6].str.isdigit()
 
#得到使用bool索引把全为数字的表格cleaned
 
cleaned = fec[fec_isnum].copy()

补充：pandas如何去掉、过滤数据集中的某些值或者某些行？

在进行数据分析与清理中，我们可能常常需要在数据集中去掉某些异常值。具体来说，看看下面的例子。

0.导入我们需要使用的包

import pandas as pd

pandas是很常用的数据分析，数据处理的包。anaconda已经有这个包了，纯净版python的可以自行pip安装。

1.去掉某些具体值

数据集df中，对于属性appPlatform（最后一列），我们想删除掉取值为2的那些样本。

如何做？非常简单。

import pandas as pd
df[(True-df['appPlatform'].isin([2]))]

当然，有时候我们需要去掉不止一个值，这个时候只需要在isin([]）的列表中添加。更具体来说，例如，对于appID这个属性，我们想去掉appID=278和appID=382的样本。

df[(True-df['appID'].isin([278,382]))]

另外，我们有时候并不只是考虑某一列，还需要考虑另外若干列的情况。例如，我们需要过滤掉appPlatform=2而且appID=278和appID=382的样本呢？非常简单。

df[(True-df['appID'].isin([278,382]))(True-df['appPlatform'].isin([2]))]

其实，在这里我们看到，就是由两部分组成的，第一部分就是appID中等于278和382的，另外一部分就是appPlatform中等于2的。两者取逻辑关系与（）

2.过滤掉某个范围的值

上面我们是了解了如何取掉某个具体值，下面，我们要看看如何过滤掉某个范围的值。

对于数据集df，我们想过滤掉creativeID（第一列）中ID值大于10000的样本。

df[df['creativeID']=10000]

另外，如果要考虑多列的话，其实和上面一样，将两种情况做逻辑与（）就可以，不过值得注意的是，每个条件要用括号()括起来。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。如有错误或未考虑完全的地方，望不吝赐教。

您可能感兴趣的文章:

pandas中的数据去重处理的实现方法
详解pandas删除缺失数据(pd.dropna()方法)
python pandas消除空值和空格以及 Nan数据替换方法

上一篇：Python三十行代码实现简单人脸识别的示例代码
下一篇：PIP安装python包出现超时问题的解决

Pandas剔除混合数据中非数字的数据操作

我们日常拿到的数据，指标字段有时会混入非数字的数据，这时候会影响我们的操作 name height Hang 180 Ben 145 Cho notknow XIn 189 比如read_csv读入时，该列会以object形式读入，也不能直接进行计Pandas,剔除,混合,数据,中非,...

细致区分，窄带物联网和宽带物联网有什么区别？

400开头的电话都是些什么电话400开头的电话都是些什么电

400开头的电话都是些什么电话400开头的电话都是些什么电话百度百科以下内容由巨人小...

金融行业电话销售用什么卡好

金融行业电话销售用什么卡好？快来联系我。华恒通讯公司专业办理稳定不封号电销卡...

协作机器人代理

智能电销机器人【协作机器人】最后，在完成整个呼叫工作后，您可以查看此次呼叫工...

这些400电话选号技巧你知道吗？

你知道400电话的选号技巧吗？现如今大部分企业都会有自己的400电话，一方面方便业务...

电话机器人办理银行业务（银行机器人打电话来要求还款

本文目录一览：1、95588智能机器人打电话过来通知提前还贷款2、银行的机器人是AI还是...

重庆防封电销卡办理，重庆防封电销系统办理

如果你还徘徊在靠刷量、碰运气才能成单的阶段，接下来的小技巧会帮助你提高成单率...

百度地图可以注册店铺吗？百度可以注册店铺吗？

现在可以在百度地图上免费注册店铺位置吗？可以的，首先你要注册一个百度账号，点...

300家申请供货华为，三星、索尼等100家企业获批

三星电子最近获得了向华为供应 OLED 显示屏的许可，日本索尼和美国豪威科技也获得许...

运城专业外呼线路办理,电话营销线路-[放心省心]

运城专业外呼线路办理,电话营销线路或者更无法做到准确对接，从而影响了公司的销售...

电销机器人运营中心（销售智能电销机器人）

今天给各位分享电销机器人运营中心的知识，其中也会对销售智能电销机器人进行解释...

镇江电销防封软件安装

镇江电销防封软件安装,镇江电销防封软件安装办理,怎么安装镇江电销防封软件防封号...

400电话申请有哪些优势山西400电话号码是免费申请的吗

许多公司，特别是一些新成立的公司，如果他们想节省大量的通信费用，就必须打开...

防御SQL注入的方法总结

SQL 注入是一类危害极大的攻击形式。虽然危害很大，但是防御却远远没有XSS那么困难。...

镇江人工外呼系统（镇江人工外呼系统招标）

本文目录一览： 1、可以简单说一下外呼系统是什么吗？2、外呼系统是什么意思3、外呼...

Pandas剔除混合数据中非数字的数据操作

全 部 栏 目

0.导入我们需要使用的包

1.去掉某些具体值

2.过滤掉某个范围的值

全部栏目