问答题
说明为何L2正则化可以解释为一种权重衰减。
假设我们的成本函数为C(w),我们再加上一个cW2。使用梯度下降时,迭代如下:w=w-grad(C)(w)—2cw=(1......
(↓↓↓ 点击下方‘点击查看答案’看完整答案 ↓↓↓)
问答题 假设训练错误/成本很高,而且验证成本/错误几乎与之相等。这是什么意思?我们应该做些什么?
问答题 将L2正则化添加到RNN有助于解决梯度消失的问题,是否正确。
问答题 什么时候不能使用BiLSTM?