使用torchtext导入NLP数据集的操作-巨人网络通讯

使用torchtext导入NLP数据集的操作

如果你是pytorch的用户，可能你会很熟悉pytorch生态圈中专门预处理图像数据集的torchvision库。

从torchtext这个名字我们也能大概猜到该库是pytorch圈中用来预处理文本数据集的库，但这方面的教程网络上比较少，今天我就讲讲这个特别有用的文本分析库。

简介

torchtext在文本数据预处理方面特别强大，但我们要知道ta能做什么、不能做什么，并如何将我们的需求用torchtext实现。虽然torchtext是为pytorch而设计的，但是也可以与keras、tensorflow等结合使用。

官方文档地址 https://torchtext.readthedocs.io/en/latest/index.html

# 安装	
!pip3 install torchtext

自然语言处理预处理的工作流程：

1、Train/Validation/Test数据集分割

2、文件数据导入（File Loading）

3、分词（Tokenization）文本字符串切分为词语列表

4、构建词典(Vocab) 根据训练的预料数据集构建词典

5、数字映射(Numericalize/Indexify) 根据词典，将数据从词语映射成数字，方便机器学习

6、导入预训练好的词向量(word vector)

7、分批(Batch) 数据集太大的话，不能一次性让机器读取，否则机器会内存崩溃。解决办法就是将大的数据集分成更小份的数据集，分批处理

8、向量映射（Embedding Lookup）根据预处理好的词向量数据集，将5的结果中每个词语对应的索引值变成 词语向量

上面8个步骤，torchtext实现了2-7。第一步需要我们自己diy，好在这一步没什么难度

"The quick fox jumped over a lazy dog."	
# 分词	
["The", "quick", "fox", "jumped", "over", "a", "lazy", "dog", "."]	
# 构建词典	
{"The" -gt; 0, 	
"quick"-gt; 1, 	
"fox" -gt; 2,	
...}	
# 数字映射（将每个词根据词典映射为对应的索引值）	
[0, 1, 2, ...]	
# 向量映射（按照导入的预训练好的词向量数据集，把词语映射成向量）	
[	
  [0.3, 0.2, 0.5],	
  [0.6, 0., 0.1],	
  [0.8, 01., 0.4],	
  ...	
]

一、数据集分割

一般我们做机器学习会将数据分为训练集和测试集，而在深度学习中，需要多轮训练学习，每次的学习过程都包括训练和验证，最后再进行测试。所以需要将数据分成训练、验证和测试数据。

import pandas as pd	
import numpy as np	
def split_csv(infile, trainfile, valtestfile, seed=999, ratio=0.2):	
    df = pd.read_csv(infile)	
    df["text"] = df.text.str.replace("\n", " ")	
    idxs = np.arange(df.shape[0])	
    np.random.seed(seed)	
    np.random.shuffle(idxs)	
    val_size = int(len(idxs) * ratio)	
    df.iloc[idxs[:val_size], :].to_csv(valtestfile, index=False)	
    df.iloc[idxs[val_size:], :].to_csv(trainfile, index=False)	
#先将sms_spam.csv数据分为train.csv和test.csv	
split_csv(infile='data/sms_spam.csv', 	
          trainfile='data/train.csv', 	
          valtestfile='data/test.csv', 	
          seed=999, 	
          ratio=0.2)	
#再将train.csv分为dataset_train.csv和dataset_valid.csv	
split_csv(infile='data/train.csv', 	
          trainfile='data/dataset_train.csv', 	
          valtestfile='data/dataset_valid.csv', 	
          seed=999, 	
          ratio=0.2)

1.1 参数解读

split_csv(infile, trainfile, valtestfile, seed, ratio)

infile:待分割的csv文件

trainfile:分割出的训练cs文件

valtestfile：分割出的测试或验证csv文件

seed:随机种子，保证每次的随机分割随机性一致

ratio:测试（验证）集占数据的比例

经过上面的操作，我们已经构建出实验所需的数据：

训练数据（这里说的是dataset_train.csv而不是train.csv）

验证数据（dataset_train.csv）

测试数据（test.csv）。

二、分词

导入的数据是字符串形式的文本，我们需要将其分词成词语列表。英文最精准的分词器如下：

import re	
import spacy	
import jieba	
	
#英文的分词器	
NLP = spacy.load('en_core_web_sm')	
MAX_CHARS = 20000  #为了降低处理的数据规模，可以设置最大文本长度,超过的部分忽略，	
def tokenize1(text):	
    text = re.sub(r"\s", " ", text)	
    if (len(text) gt; MAX_CHARS):	
        text = text[:MAX_CHARS]	
    return [	
        x.text for x in NLP.tokenizer(text) if x.text != " " and len(x.text)gt;1]	
#有的同学tokenize1用不了，可以使用tokenize2。	
def tokenize2(text):	
    text = re.sub(r"\s", " ", text)	
    if (len(text) gt; MAX_CHARS):	
        text = text[:MAX_CHARS]	
    return [w for w in text.split(' ') if len(w)gt;1]	
#中文的分类器比较简单	
def tokenize3(text):	
    if (len(text) gt; MAX_CHARS):	
        text = text[:MAX_CHARS]	
    return [w for w in jieba.lcut(text) if len(w)gt;1]	
	
print(tokenize1('Python is powerful and beautiful!'))	
print(tokenize2('Python is powerful and beautiful!'))	
print(tokenize3('Python强大而美丽！'))

Run

['Python', 'is', 'powerful', 'and', 'beautiful']	
['Python', 'is', 'powerful', 'and', 'beautiful!']	
['Python', '强大', '美丽']

三、导入数据

torchtext中使用torchtext.data.TabularDataset来导入自己的数据集，并且我们需要先定义字段的数据类型才能导入。要按照csv中的字段顺序来定义字段的数据类型，我们的csv文件中有两个字段（label、text）

import pandas as pd	
df = pd.read_csv('data/train.csv')	
df.head()

import torch	
import torchtext	
from torchtext import data	
import logging	
LABEL = data.LabelField(dtype = torch.float)	
TEXT = data.Field(tokenize = tokenize1, 	
                      lower=True,	
                      fix_length=100,	
                      stop_words=None)	
train, valid, test = data.TabularDataset.splits(path='data', #数据所在文件夹	
                                                train='dataset_train.csv', 	
                                                validation='dataset_valid.csv',	
                                                test = 'test.csv',	
                                                format='csv', 	
                                                skip_header=True,	
                                                fields = [('label', LABEL),('text', TEXT)])	
train

Run

lt;torchtext.data.dataset.TabularDataset at 0x120d8ab38gt;

四、构建词典

根据训练（上面得到的train）的预料数据集构建词典。这两有两种构建方式，一种是常规的不使用词向量，而另一种是使用向量的。

区别仅仅在于vectors是否传入参数

vects =  torchtext.vocab.Vectors(name = 'glove.6B.100d.txt', 	
                                 cache = 'data/')	
TEXT.build_vocab(train,	
                 max_size=2000, 	
                 min_freq=50,   	
                 vectors=vects,  #vects替换为None则不使用词向量	
                 unk_init = torch.Tensor.normal_)

4.1 TEXT是Field对象，该对象的方法有

print(type(TEXT)) 
print(type(TEXT.vocab))

Run

lt;class 'torchtext.data.field.Field'gt; 
lt;class 'torchtext.vocab.Vocab'gt;

词典-词语列表形式，这里只显示前20个

TEXT.vocab.itos[:20]

['lt;unkgt;', 
 'lt;padgt;', 
 'to', 
 'you', 
 'the', 
 '...', 
 'and', 
 'is', 
 'in', 
 'me', 
 'it', 
 'my', 
 'for', 
 'your', 
 '..', 
 'do', 
 'of', 
 'have', 
 'that', 
 'call']

词典-字典形式

TEXT.vocab.stoi

defaultdict(lt;bound method Vocab._default_unk_index of lt;torchtext.vocab.Vocab object at 0x1214b1e48gt;gt;, 
            {'lt;unkgt;': 0, 
             'lt;padgt;': 1, 
             'to': 2, 
             'you': 3, 
             'the': 4, 
             '...': 5, 
             'and': 6, 
             'is': 7, 
             'in': 8, 
             .... 
             'mother': 0, 
             'english': 0, 
             'son': 0, 
             'gradfather': 0, 
             'father': 0, 
             'german': 0)

4.2 注意

train数据中生成的词典，里面有，这里有两个要注意:

是指不认识的词语都编码为

german、father等都编码为0,这是因为我们要求词典中出现的词语词频必须大于50，小于50的都统一分配一个索引值。

词语you对应的词向量

TEXT.vocab.vectors[3]

tensor([-0.4989,  0.7660,  0.8975, -0.7855, -0.6855,  0.6261, -0.3965,  0.3491,	
         0.3333, -0.4523,  0.6122,  0.0759,  0.2253,  0.1637,  0.2810, -0.2476,	
         0.0099,  0.7111, -0.7586,  0.8742,  0.0031,  0.3580, -0.3523, -0.6650,	
         0.3845,  0.6268, -0.5154, -0.9665,  0.6152, -0.7545, -0.0124,  1.1188,	
         0.3572,  0.0072,  0.2025,  0.5011, -0.4405,  0.1066,  0.7939, -0.8095,	
        -0.0156, -0.2289, -0.3420, -1.0065, -0.8763,  0.1516, -0.0853, -0.6465,	
        -0.1673, -1.4499, -0.0066,  0.0048, -0.0124,  1.0474, -0.1938, -2.5991,	
         0.4053,  0.4380,  1.9332,  0.4581, -0.0488,  1.4308, -0.7864, -0.2079,	
         1.0900,  0.2482,  1.1487,  0.5148, -0.2183, -0.4572,  0.1389, -0.2637,	
         0.1365, -0.6054,  0.0996,  0.2334,  0.1365, -0.1846, -0.0477, -0.1839,	
         0.5272, -0.2885, -1.0742, -0.0467, -1.8302, -0.2120,  0.0298, -0.3096,	
        -0.4339, -0.3646, -0.3274, -0.0093,  0.4721, -0.5169, -0.5918, -0.3234,	
         0.2005, -0.4118,  0.4054,  0.7850])

4.3 计算词语的相似性

得用词向量构建特征工程时能保留更多的信息量（词语之间的关系）

这样可以看出词语的向量方向

是同义还是反义

距离远近。

而这里我们粗糙的用余弦定理计算词语之间的关系，没有近义反义关系，只能体现出距离远近（相似性）。

from sklearn.metrics.pairwise import cosine_similarity 
import numpy as np 
def simalarity(word1, word2): 
    word_vec1 = TEXT.vocab.vectors[TEXT.vocab.stoi[word1]].tolist() 
    word_vec2 = TEXT.vocab.vectors[TEXT.vocab.stoi[word2]].tolist() 
    vectors = np.array([word_vec1, word_vec2]) 
    return cosine_similarity(vectors) 
print(simalarity('you', 'your'))

Run

[[1.         0.83483314] 
 [0.83483314 1.        ]]

五、get_dataset函数

相似的功能合并成模块，可以增加代码的可读性。这里我们把阶段性合并三四的成果get_dataset函数

from torchtext import data	
import torchtext	
import torch	
import logging	
LOGGER = logging.getLogger("导入数据")	
def get_dataset(stop_words=None):	
    #定义字段的数据类型	
    LABEL = data.LabelField(dtype = torch.float)	
    TEXT = data.Field(tokenize = tokenize1, 	
                      lower=True,	
                      fix_length=100,	
                      stop_words=stop_words)	
    LOGGER.debug("准备读取csv数据...")	
    train, valid, test = data.TabularDataset.splits(path='data', #数据所在文件夹	
                                         train='dataset_train.csv', 	
                                         validation='dataset_valid.csv',	
                                         test = 'test.csv',	
                                         format='csv', 	
                                         skip_header=True,	
                                         fields = [('label', LABEL),('text', TEXT)])	
    LOGGER.debug("准备导入词向量...")	
    vectors = torchtext.vocab.Vectors(name = 'glove.6B.100d.txt', 	
                                      cache = 'data/')	
    LOGGER.debug("准备构建词典...")	
    TEXT.build_vocab(	
        train,	
        max_size=2000, 	
        min_freq=50,   	
        vectors=vectors,	
        unk_init = torch.Tensor.normal_)	
    LOGGER.debug("完成数据导入!")	
    return train,valid, test, TEXT

get_dataset函数内部参数解读

data.Field(tokenize,fix_length)定义字段

tokenize=tokenize1 使用英文的分词器tokenize1函数。

fix_length=100 让每个文本分词后的长度均为100个词；不足100的，可以填充为100。超过100的，只保留100

data.TabularDataset.splits(train, validation,test, format,skip_header,fields)读取训练验证数据，可以一次性读取多个文件

train/validation/test 训练验证测试对应的csv文件名

skip_header=True 如果csv有抬头，设置为True可以避免pytorch将抬头当成一条记录

fields = [('label', LABEL), ('text', TEXT)] 定义字段的类型，注意fields要按照csv抬头中字段的顺序设置

torchtext.vocab.Vectors(name, cache)导入词向量数据文件

name= 'glove.6B.100d.txt' 从网上下载预训练好的词向量glove.6B.100d.txt文件（该文件有6B个词，每个词向量长度为100）

cache = 'data/' 文件夹位置。glove文件存放在data文件夹内

TEXT.buildvocab(maxsize,minfreq,unkinit) 构建词典，其中

max_size=2000 设定了词典最大词语数

min_freq=50设定了词典中的词语保证最少出现50次

unkinit=torch.Tensor.normal 词典中没有的词语对应的向量统一用torch.Tensor.normal_填充

六、分批次

数据集太大的话，一次性让机器读取容易导致内存崩溃。解决办法就是将大的数据集分成更小份的数据集，分批处理

def split2batches(batch_size=32, device='cpu'):	
    train, valid, test, TEXT = get_dataset() #datasets按顺序包含train、valid、test三部分	
    LOGGER.debug("准备数据分批次...")	
    train_iterator, valid_iterator, test_iterator = data.BucketIterator.splits((train, valid, test), 	
                                                                               batch_size = batch_size,	
                                                                               sort = False,	
                                                                               device = device)	
    LOGGER.debug("完成数据分批次!")	
    return train_iterator, valid_iterator, test_iterator, TEXT

6.1参数解读

split2batches(batch_size=32, device=0)

batch_size 每批次最多加入多少条评论

device device='cpu'在CPU中运行，device='gpu' 在GPU中运行。普通电脑都只有CPU的该函数返回的是BucketIterator对象

train_iterator, valid_iterator, test_iterator, TEXT = split2batches() 
train_iterator

Run

lt;torchtext.data.iterator.BucketIterator at 0x12b0c7898gt;

查看train_iterator数据类型

type(train_iterator)
torchtext.data.iterator.BucketIterator

6.2BucketIterator对象

这里以trainiterator为例（validiterator, test_iterator都是相同的对象）。因为本例中数据有两个字段label和text，所以

获取train_iterator的dataset

train_iterator.dataset
lt;torchtext.data.dataset.TabularDataset at 0x12e9c57b8gt;

获取train_iterator中的第8个对象

train_iterator.dataset.examples[7]
lt;torchtext.data.example.Example at 0x12a82dcf8gt;

获取train_iterator中的第8个对象的lebel字段的内容

train_iterator.dataset.examples[7].label
'ham'

获取train_iterator中的第8个对象的text字段的内容

train_iterator.dataset.examples[7].text
['were', 'trying', 'to', 'find', 'chinese', 'food', 'place', 'around', 'here']

总结

到这里我们已经学习了torchtext的常用知识。使用本代码要注意：

我们假设数据集是csv文件，torchtext可以还可以处理tsv、json。但如果你想使用本代码，请先转为csv

本教程的csv文件只有两个字段，label和text。如果你的数据有更多的字段，记得再代码中增加字段定义

本教程默认场景是英文，且使用词向量。所以记得对应位置下载本教程的glove.6B.100d.txt。

glove下载地址https://nlp.stanford.edu/projects/glove/

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

使用pytorch和torchtext进行文本分类的实例
pytorch加载语音类自定义数据集的方法教程
pytorch下大型数据集(大型图片)的导入方式
PyTorch加载自己的数据集实例详解

上一篇：beam search及pytorch的实现方式
下一篇：如何用Python一次性下载抖音上音乐

使用torchtext导入NLP数据集的操作

如果你是pytorch的用户，可能你会很熟悉pytorch生态圈中专门预处理图像数据集的torchvision库。从torchtext这个名字我们也能大概猜到该库是pytorch圈中用来预处理文本数据集的库，但这方面使用,torchtext,导入,NLP,数据,...

天津智能电销卡办理办理服务商-诚信服务

天津智能电销卡办理办理服务商达到筛选意向客户、锁定目标客户、准确客户分类的营...

“浙江服务”，转型新动力

服务外包，这个很多人已经不陌生的词汇，第一次成为了我省五年规划的主角。在日前...

短视频代运营公司收费报价表明细你是否了解

现阶段市场上面有许多的短视频代运营公司，人们在选择代运营公司的时候，都会关注...

金华市稳定高频电话卡便宜

深圳移动联合华为、移动研究院，对现网上干扰问题进行稳定高频电话卡便宜深入分析...

400电话办理满意度调查有更多提高

每一个企业要想发展更好，都应该重视客服方面关注，如果客服方面无法得到要求，那...

微信定位找不到我公司的地址，微信定位找不到我的店铺

为什么微信定位找不到自己公司位置？你可以直接在各大地图软件中提交你公司的地址...

400呼叫中心解决方案

400呼叫中心解决方案是企业业务发展的核心基础，也是企业业务开展的有效工具，同时...

承担违反著作权合同民事责任的条件

著作权合同当事人承担违约责任，除了有损害事实之外，还应当同时具备以—F两个条件...

厦门联通38套餐电销卡（38元联通卡套餐介绍）

本文目录一览：1、电销卡在哪里办理2、电销卡是什么?3、电销卡有哪些优势?4、电销卡...

虽然iPhone 8首发遇冷，但在体验店大家还是很热情的嘛

iPhone 8上市接近一周，直营店门可罗雀的凄凉场景依然历历在目。大家纷纷唱衰iPhone ...

电话外呼系统是如何收费（外呼系统多少钱）

本文目录一览： 1、外呼琐细一个几何钱，有哪些听命？ 2、外呼琐细安装需求哪些用度...

电销外呼系统号码从哪来（电销外呼系统违法吗）

本篇文章给大家谈谈电销外呼系统号码从哪来，以及电销外呼系统违法吗对应的知识点...

长沙电销专用卡（长沙电销卡办理）

本文目录一览：1、电销卡怎么办理2、求告知现在那种手机卡适合电话营销3、专门打电...

webcolct.exe - webcolct 是什么进程

进程文件： webcolct or webcolct.exe 进程名称： Webcolct 进程类别：存在安全风险的进程英文...

共祝华诞普强AI能力平台正式上线

你好，普强我在随着人机语音交互技术逐渐成熟，智能语音客服、智能车载语音助手...

使用torchtext导入NLP数据集的操作

全 部 栏 目

简介

自然语言处理预处理的工作流程：

一、数据集分割

1.1 参数解读

二、分词

三、 导入数据

四、构建词典

4.1 TEXT是Field对象，该对象的方法有

4.2 注意

4.3 计算词语的相似性

五、get_dataset函数

六、分批次

6.1参数解读

6.2BucketIterator对象

总结

全部栏目

三、导入数据