umich cv-5-2 神经网络训练2

在训练神经网络时，一个常见的思路就是刚开始迭代的时候学习率较大，然后随着迭代次数的增加，学习率逐渐下降，下面我们就来介绍几种学习率下降的方法：

第一种方法是我们在某些特定的迭代节点，将学习率乘以某个值比如0.1，这种方法显然又引入了更多的超参数，我们不想这样做，所以又设计了其它的下降曲线

比如上图的cos linear 等等我们有时会发现保持学习率不变也是个不错的选择

实际上不同下降方法之间没有明显的对比统计，大多是根据不同领域习惯选择不同方法，比如计算机视觉用cos，大规模自然语言处理用linear等

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。