• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    聊聊PyTorch中eval和no_grad的关系

    首先这两者有着本质上区别

    model.eval()是用来告知model内的各个layer采取eval模式工作。这个操作主要是应对诸如dropout和batchnorm这些在训练模式下需要采取不同操作的特殊layer。训练和测试的时候都可以开启。

    torch.no_grad()则是告知自动求导引擎不要进行求导操作。这个操作的意义在于加速计算、节约内存。但是由于没有gradient,也就没有办法进行backward。所以只能在测试的时候开启。

    所以在evaluate的时候,需要同时使用两者。

    model = ...
    dataset = ...
    loss_fun = ...
    
    # training
    lr=0.001
    model.train()
    for x,y in dataset:
     model.zero_grad()
     p = model(x)
     l = loss_fun(p, y)
     l.backward()
     for p in model.parameters():
      p.data -= lr*p.grad
     
    # evaluating
    sum_loss = 0.0
    model.eval()
    with torch.no_grad():
     for x,y in dataset:
      p = model(x)
      l = loss_fun(p, y)
      sum_loss += l
    print('total loss:', sum_loss)
    

    另外no_grad还可以作为函数是修饰符来用,从而简化代码。

    def train(model, dataset, loss_fun, lr=0.001):
     model.train()
     for x,y in dataset:
      model.zero_grad()
      p = model(x)
      l = loss_fun(p, y)
      l.backward()
      for p in model.parameters():
       p.data -= lr*p.grad
     
    @torch.no_grad()
    def test(model, dataset, loss_fun):
     sum_loss = 0.0
     model.eval()
     for x,y in dataset:
      p = model(x)
      l = loss_fun(p, y)
      sum_loss += l
     return sum_loss
    
    # main block:
    model = ...
    dataset = ...
    loss_fun = ...
    
    # training
    train()
    # test
    sum_loss = test()
    print('total loss:', sum_loss)
    

    补充:pytorch中model.train、model.eval以及torch.no_grad的用法

    1、model.train()

    启用 BatchNormalization 和 Dropout

    model.train() 让model变成训练模式,此时 dropout和batch normalization的操作在训练起到防止网络过拟合的问题

    2、model.eval()

    不启用 BatchNormalization 和 Dropout

    model.eval(),pytorch会自动把BN和DropOut固定住,而用训练好的值。不然的话,一旦test的batch_size过小,很容易就会被BN层导致所生成图片颜色失真极大

    训练完train样本后,生成的模型model要用来测试样本。在model(test)之前,需要加上model.eval(),否则的话,有输入数据,即使不训练,它也会改变权值。这是model中含有batch normalization层所带来的的性质。

    对于在训练和测试时为什么要这样做,可以从下面两段话理解:

    在训练的时候, 会计算一个batch内的mean 和var, 但是因为是小batch小batch的训练的,所以会采用加权或者动量的形式来将每个batch的 mean和var来累加起来,也就是说再算当前的batch的时候,其实当前的权重只是占了0.1, 之前所有训练过的占了0.9的权重,这样做的好处是不至于因为某一个batch太过奇葩而导致的训练不稳定。

    好,现在假设训练完成了, 那么在整个训练集上面也得到了一个最终的”mean 和var”, BN层里面的参数也学习完了(如果指定学习的话),而现在需要测试了,测试的时候往往会一张图一张图的去测,这时候没有batch而言了,对单独一个数据做 mean和var是没有意义的, 那么怎么办,实际上在测试的时候BN里面用的mean和var就是训练结束后的mean_final 和 val_final. 也可说是在测试的时候BN就是一个变换。所以在用pytorch的时候要注意这一点,在训练之前要有model.train() 来告诉网络现在开启了训练模式,在eval的时候要用”model.eval()”, 用来告诉网络现在要进入测试模式了.因为这两种模式下BN的作用是不同的。

    3、torch.no_grad()

    这条语句的作用是:在测试时不进行梯度的计算,这样可以在测试时有效减小显存的占用,以免发生显存溢出(OOM)。

    这条语句通常加在网络预测的那条代码上。

    4、pytorch中model.eval()和“with torch.no_grad()区别

    两者区别

    在PyTorch中进行validation时,会使用model.eval()切换到测试模式,在该模式下,

    主要用于通知dropout层和batchnorm层在train和val模式间切换

    在train模式下,dropout网络层会按照设定的参数p设置保留激活单元的概率(保留概率=p); batchnorm层会继续计算数据的mean和var等参数并更新。

    在val模式下,dropout层会让所有的激活单元都通过,而batchnorm层会停止计算和更新mean和var,直接使用在训练阶段已经学出的mean和var值。

    该模式不会影响各层的gradient计算行为,即gradient计算和存储与training模式一样,只是不进行反传(backprobagation)

    而with torch.zero_grad()则主要是用于停止autograd模块的工作,以起到加速和节省显存的作用,具体行为就是停止gradient计算,从而节省了GPU算力和显存,但是并不会影响dropout和batchnorm层的行为。

    使用场景

    如果不在意显存大小和计算时间的话,仅仅使用model.eval()已足够得到正确的validation的结果;而with torch.zero_grad()则是更进一步加速和节省gpu空间(因为不用计算和存储gradient),从而可以更快计算,也可以跑更大的batch来测试。

    以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

    您可能感兴趣的文章:
    • pytorch掉坑记录:model.eval的作用说明
    • pytorch:model.train和model.eval用法及区别详解
    • 解决Pytorch中的神坑:关于model.eval的问题
    上一篇:Python循环结构详解
    下一篇:如何利用Pytorch计算三角函数
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    聊聊PyTorch中eval和no_grad的关系 聊聊,PyTorch,中,eval,和,grad,