1

描述

解析

根据题目给定的公式大胆的猜 Δ(k)ij:=Δ(k)ij+δ(k+1)i(a(k))j Δ i j ( k ) := Δ i j ( k ) + δ i ( k + 1 ) ∗ ( a ( k ) ) j ,所以题目选择 D D

2

描述

解析

因为 T h e t a 1 包含 15 15 个元素、 Theta2 T h e t a 2 包含 24 24 个元素,所以按照 thetaVec=[Theta1(:);Theta2(:)] t h e t a V e c = [ T h e t a 1 ( : ) ; T h e t a 2 ( : ) ] 组合时,会得到一个包含 39 39 个元素的 thetaVec t h e t a V e c 向量,想要重新获取 Theta2 T h e t a 2 需要将后 24 24 个拆分出来构造成 46 4 ∗ 6 Theta2 T h e t a 2 ,所以选 A A ,注意下标是从 1 开始。

3

描述

解析

θ=1 θ = 1 ϵ=0.01 ϵ = 0.01 代入 J(θ+ϵ)J(θϵ)2ϵ J ( θ + ϵ ) − J ( θ − ϵ ) 2 ϵ 得, ans=12.0012 a n s = 12.0012 ,选 D D

4

描述

解析

A ,使用梯度检测的确可以帮助减少反向传播算法计算时的 Bug B u g ,正确;
B B ,神经网络过拟合时,可以尝试将 λ 变大,毕竟神经网络的损失函数和正则修正操作都是从梯度下降算法中引申过来的,所以原理可借鉴,正确;
C C ,两者公式原理相似,都可以用梯度检测,错误;
D ,当 λ λ 过大时会出现欠拟合,参照梯度下降算法,错误。

5

描述

解析

A A 不能全部设置为 0 或者 1 1 ,这样会因为参数相同而没有什么效果,错误;
B 参照 A A ,不能全部设置为相同的值,推荐的是全部随机成接近于 0 的浮点数,错误;
C C 只能趋向于局部最小值,初始值不同,结果也可能会不同,正确;
D 参照梯度下降算法,随着迭代的增加, J J <script type="math/tex" id="MathJax-Element-1525">J</script> 应该逐渐变小,正确。