解决Pytorch半精度浮点型网络训练的问题-巨人网络通讯

解决Pytorch半精度浮点型网络训练的问题

用Pytorch1.0进行半精度浮点型网络训练需要注意下问题：

1、网络要在GPU上跑，模型和输入样本数据都要cuda().half()

2、模型参数转换为half型，不必索引到每层，直接model.cuda().half()即可

3、对于半精度模型，优化算法，Adam我在使用过程中，在某些参数的梯度为0的时候，更新权重后，梯度为零的权重变成了NAN，这非常奇怪，但是Adam算法对于全精度数据类型却没有这个问题。

另外，SGD算法对于半精度和全精度计算均没有问题。

还有一个问题是不知道是不是网络结构比较小的原因，使用半精度的训练速度还没有全精度快。这个值得后续进一步探索。

对于上面的这个问题，的确是网络很小的情况下，在1080Ti上半精度浮点型没有很明显的优势，但是当网络变大之后，半精度浮点型要比全精度浮点型要快。

但具体快多少和模型的大小以及输入样本大小有关系，我测试的是要快1/6，同时，半精度浮点型在占用内存上比较有优势，对于精度的影响尚未探究。

将网络再变大些，epoch的次数也增大，半精度和全精度的时间差就表现出来了，在训练的时候。

补充：pytorch半精度，混合精度，单精度训练的区别amp.initialize

看代码吧~

mixed_precision = True
try:  # Mixed precision training https://github.com/NVIDIA/apex
    from apex import amp
except:
    mixed_precision = False  # not installed

 model, optimizer = amp.initialize(model, optimizer, opt_level='O1', verbosity=1)

为了帮助提高Pytorch的训练效率，英伟达提供了混合精度训练工具Apex。号称能够在不降低性能的情况下，将模型训练的速度提升2-4倍，训练显存消耗减少为之前的一半。

文档地址是：https://nvidia.github.io/apex/index.html

该工具提供了三个功能，amp、parallel和normalization。由于目前该工具还是0.1版本，功能还是很基础的，在最后一个normalization功能中只提供了LayerNorm层的复现，实际上在后续的使用过程中会发现，出现问题最多的是pytorch的BN层。

第二个工具是pytorch的分布式训练的复现，在文档中描述的是和pytorch中的实现等价，在代码中可以选择任意一个使用，实际使用过程中发现，在使用混合精度训练时，使用Apex复现的parallel工具，能避免一些bug。

默认训练方式是单精度float32

import torch
model = torch.nn.Linear(D_in, D_out)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)
for img, label in dataloader:
 out = model(img)
 loss = LOSS(out, label)
 loss.backward()
 optimizer.step()
 optimizer.zero_grad()

半精度 model(img.half())

import torch
model = torch.nn.Linear(D_in, D_out).half()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)
for img, label in dataloader:
 out = model(img.half())
 loss = LOSS(out, label)
 loss.backward()
 optimizer.step()
 optimizer.zero_grad()

接下来是混合精度的实现，这里主要用到Apex的amp工具。

代码修改为：

加上这一句封装，

model, optimizer = amp.initialize(model, optimizer, opt_level=“O1”)

import torch
model = torch.nn.Linear(D_in, D_out).cuda()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)
model, optimizer = amp.initialize(model, optimizer, opt_level="O1")

for img, label in dataloader:
 out = model(img)
 loss = LOSS(out, label)
 # loss.backward()
 with amp.scale_loss(loss, optimizer) as scaled_loss:
     scaled_loss.backward()

 optimizer.step()
 optimizer.zero_grad()

实际流程为：调用amp.initialize按照预定的opt_level对model和optimizer进行设置。在计算loss时使用amp.scale_loss进行回传。

需要注意以下几点：

在调用amp.initialize之前，模型需要放在GPU上，也就是需要调用cuda()或者to()。

在调用amp.initialize之前，模型不能调用任何分布式设置函数。

此时输入数据不需要在转换为半精度。

在使用混合精度进行计算时，最关键的参数是opt_level。他一共含有四种设置值：‘00'，‘01'，‘02'，‘03'。实际上整个amp.initialize的输入参数很多：

但是在实际使用过程中发现，设置opt_level即可，这也是文档中例子的使用方法，甚至在不同的opt_level设置条件下，其他的参数会变成无效。（已知BUG：使用‘01'时设置keep_batchnorm_fp32的值会报错）

概括起来：

00相当于原始的单精度训练。01在大部分计算时采用半精度，但是所有的模型参数依然保持单精度，对于少数单精度较好的计算（如softmax）依然保持单精度。02相比于01，将模型参数也变为半精度。

03基本等于最开始实验的全半精度的运算。值得一提的是，不论在优化过程中，模型是否采用半精度，保存下来的模型均为单精度模型，能够保证模型在其他应用中的正常使用。这也是Apex的一大卖点。

在Pytorch中，BN层分为train和eval两种操作。

实现时若为单精度网络，会调用CUDNN进行计算加速。常规训练过程中BN层会被设为train。Apex优化了这种情况，通过设置keep_batchnorm_fp32参数，能够保证此时BN层使用CUDNN进行计算，达到最好的计算速度。

但是在一些fine tunning场景下，BN层会被设为eval（我的模型就是这种情况）。此时keep_batchnorm_fp32的设置并不起作用，训练会产生数据类型不正确的bug。此时需要人为的将所有BN层设置为半精度，这样将不能使用CUDNN加速。

一个设置的参考代码如下：

def fix_bn(m):
 classname = m.__class__.__name__
    if classname.find('BatchNorm') != -1:
     m.eval().half()

model.apply(fix_bn)

实际测试下来，最后的模型准确度上感觉差别不大，可能有轻微下降；时间上变化不大，这可能会因不同的模型有差别；显存开销上确实有很大的降低。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

PyTorch梯度裁剪避免训练loss nan的操作
pytorch训练神经网络爆内存的解决方案
Pytorch训练模型得到输出后计算F1-Score 和AUC的操作
pytorch加载预训练模型与自己模型不匹配的解决方案
Pytorch训练网络过程中loss突然变为0的解决方案
pytorch 如何使用float64训练

上一篇：Python办公自动化之Excel（中）
下一篇：pytorch 使用半精度模型部署的操作

解决Pytorch半精度浮点型网络训练的问题

用Pytorch1.0进行半精度浮点型网络训练需要注意下问题： 1、网络要在GPU上跑，模型和输入样本数据都要cuda().half() 2、模型参数转换为half型，不必索引到每层，直接model.cuda().half()即可解决,Pytorch,半,精度,浮点型,...

郭庚茂：用服务业带来河南的长远发展

大河网讯2008年6月26日，郭庚茂代省长在河南省服务业发展大会上的提出：加快服务业发...

400电话怎么申请开通及费用上海400电话号码费用

如何办理400电话，首先400电话只适用于企业，或个体户，个人不能办理400电话。一般来...

400电话费用要多少400开头电话能接吗

400电话费用要多少400开头电话能接吗以下内容由巨人小编整理发布。如报任毛交还断的...

电话机器人效果怎么养

智能营销的新时代到来了。你在等什么？【电话机器人】 1、导入拨打数据【电话机...

400号码申请费用详解：不同地区申请费用不同

400号码是近年来逐渐普及的电话号码，其具有易记、统一和延伸企业形象等的特点，被...

内部营销与内部商标传播的含义

内部商标传播的理论前提是内部营销理论的提出。1981年,北欧服务营销学派的鼻祖芬兰...

遵义电话白名单是什么意思

遵义电话白名单是什么意思百应人工智能获客服务商是较领先的互联网一站式服务供应...

将django项目部署到centos的踩坑实战

前言本文介绍的是将django项目部署到centos的遇到的一些问题，关于将Django项目部署到...

400服务商400全国服务电话

(400服务商)(400全国服务电话)以下内容由巨人小编整理发布。要想找正规的400电话服务...

安阳ai电销机器人供应商（安阳ai电销机器人供应商电话

本文目录一览： 1、哪家的ai智能电话发卖板滞人对照好？ 2、AI智能电销板滞人哪家好...

巨人科技提醒你办理过程中的误区有哪些

在我们进行400电话办理的时候，一些人因为对这个电话的主要功能以及其他的方面都不...

电话营销基本话术云呼_电话机器人

4銆?鏅鸿兘璇煶鏈哄櫒浜轰笉浠呮槸涓€鍙扮畝鍗曠殑鏈哄櫒锛岃繕鍏锋湁鑷垜瀛...

400电话主要功能400电话的常见功能有哪些？

如今，越来越多的企业和企业选择400电话处理，掀起了400电话处理的热潮。一开始，企...

如何把高德地图店铺显示到抖音店？如何把高德地图店铺

高德地图上的店铺怎么显示到抖音？在抖音位置选择里用高德地图标记位置发表抖音即...

400电话是免费的还是收费的手机打400电话免费吗？

虽然400电话不是完全免费的，但400电话对企业的宣传作用不容忽视。由于400电话处理业...

解决Pytorch半精度浮点型网络训练的问题

全 部 栏 目

用Pytorch1.0进行半精度浮点型网络训练需要注意下问题：

看代码吧~

默认训练方式是 单精度float32

半精度 model(img.half())

需要注意以下几点：

全部栏目

默认训练方式是单精度float32