让你一文弄懂Pandas文本数据处理-巨人网络通讯

让你一文弄懂Pandas文本数据处理

前言

日常工作中我们经常接触到一些文本类信息，需要从文本中解析出数据信息，然后再进行数据分析操作。

而对文本类信息进行解析是一件比较头秃的事情，好巧，Pandas刚好对这类文本数据有比较好的处理方法，那就让我们来一起学一学吧！

1. 文本数据类型

在pandas中存储文本数据有两种方式：object 和 string。在pandas 1.0版本之前，object是唯一的文本类型，在一列数据中如果包含数值和文本等混合类型则一般也会默认为object。在pandas 1.0 版本之后，新增了string文本类型，可以更好的支持字符串的处理。

1.1. 类型简介

默认情况下，object仍然是文本数据默认的类型。

如果要采用string类型，我们可以通过dtype进行指定

在Series 或 Dataframe被创建后，我们还可以通过astype进行类型强制转换

当然，我们还有个df.convert_dtypes()方法可以进行智能数据类型选择

1.2. 类型差异

string和object在操作上有所不同。

对于sting来说，返回数字输出的字符串访问器方法将始终返回可为空的整数类型；对于object来说，是 int 或 float，具体取决于 NA 值的存在

对于string类型来说，返回布尔输出的方法将返回一个可为空的布尔数据类型

2. 字符串方法

Series 和 Index 都有一些字符串处理方法，可以方便进行操作，最重要的是，这些方法会自动排除缺失/NA 值，我们可以通过str属性访问这些方法。

2.1. 文本格式

文本格式是对字符串文本进行格式操作，比如转换大小写之类的

>>> s = pd.Series(
...     ["A", "B", "Aaba", "Baca", np.nan, "cat"],
...     dtype="string"
... )
>>> s.str.lower() # 转小写
0       a
1       b
2    aaba
3    baca
4    NA>
5     cat
dtype: string
>>> s.str.upper() # 转大写
0       A
1       B
2    AABA
3    BACA
4    NA>
5     CAT
dtype: string
>>> s.str.title() # 每个单词大写
0       A
1       B
2    Aaba
3    Baca
4    NA>
5     Cat
dtype: string
>>> s.str.capitalize() # 首字母大写
0       A
1       B
2    Aaba
3    Baca
4    NA>
5     Cat
dtype: string
>>> s.str.swapcase() # 大小写互换
0       a
1       b
2    aABA
3    bACA
4    NA>
5     CAT
dtype: string
>>> s.str.casefold() # 转为小写，支持其他语言
0       a
1       b
2    aaba
3    baca
4    NA>
5     cat
dtype: string

2.2. 文本对齐

文本对齐是指在文本显示的时候按照一定的规则进行对齐处理，比如左对齐、右对齐、居中等等

>>> s.str.center(10,fillchar='-') # 居中对齐，宽度为10，填充字符为'-'
0    ----A-----
1    ----B-----
2    ---Aaba---
3    ---Baca---
4          NA>
5    ---cat----
dtype: string
>>> s.str.ljust(10,fillchar='-') # 左对齐
0    A---------
1    B---------
2    Aaba------
3    Baca------
4          NA>
5    cat-------
dtype: string
>>> s.str.rjust(10,fillchar='-') # 右对齐
0    ---------A
1    ---------B
2    ------Aaba
3    ------Baca
4          NA>
5    -------cat
dtype: string
>>> s.str.pad(width=10, side='left', fillchar='-') # 指定宽度，填充字符对齐方式为 left，填充字符为'-'
0    ---------A
1    ---------B
2    ------Aaba
3    ------Baca
4          NA>
5    -------cat
dtype: string
>>> s.str.zfill(3) # 指定宽度3，不足则在前面添加0
0     00A
1     00B
2    Aaba
3    Baca
4    NA>
5     cat
dtype: string

2.3. 计数与编码

文本计数与内容编码

>>> s.str.count("a") # 字符串中指定字母的数量
0       0
1       0
2       2
3       2
4    NA>
5       1
dtype: Int64
>>> s.str.len() # 字符串的长度
0       1
1       1
2       4
3       4
4    NA>
5       3
dtype: Int64
>>> s.str.encode('utf-8') # 编码
0       b'A'
1       b'B'
2    b'Aaba'
3    b'Baca'
4       NA>
5     b'cat'
dtype: object
>>> s.str.encode('utf-8').str.decode('utf-8') # 解码
0       A
1       B
2    Aaba
3    Baca
4    NA>
5     cat
dtype: object

2.4. 格式判断

格式判断就是对字符串进行字符格式判断，比如是不是数字，是不是字母，是不是小数等等

>>> s = pd.Series(
...     ["A", "B", "Aaba", 12, 5, np.nan, "cat"],
...     dtype="string"
... )
>>> s.str.isalpha() # 是否为字母
0     True
1     True
2     True
3    False
4    False
5     NA>
6     True
dtype: boolean
>>> s.str.isnumeric() # 是否为数字0-9
0    False
1    False
2    False
3     True
4     True
5     NA>
6    False
dtype: boolean
>>> s.str.isalnum() # 是否由数字或字母组成
0    True
1    True
2    True
3    True
4    True
5    NA>
6    True
dtype: boolean
>>> s.str.isdigit() # 是否为数字
0    False
1    False
2    False
3     True
4     True
5     NA>
6    False
dtype: boolean
>>> s.str.isdecimal() # 是否为小数
0    False
1    False
2    False
3     True
4     True
5     NA>
6    False
dtype: boolean
>>> s.str.isspace() # 是否为空格
0    False
1    False
2    False
3    False
4    False
5     NA>
6    False
dtype: boolean
>>> s.str.islower() # 是否为小写
0    False
1    False
2    False
3    False
4    False
5     NA>
6     True
dtype: boolean
>>> s.str.isupper() # 是否为大写
0     True
1     True
2    False
3    False
4    False
5     NA>
6    False
dtype: boolean
>>> s.str.istitle() # 是否为标题格式
0     True
1     True
2     True
3    False
4    False
5     NA>
6    False
dtype: boolean

以上这些字符串的方法其实和python原生的字符串方法基本相同。