现场投递简历,然后现场面试
(1)问了简历相关的项目,问GAN是怎么组成的,问生成器用了哪些损失函数
(2)问图像识别常用的损失函数:交叉熵损失
提出了一个问题,如果label不是one-hot而是一个服从某个分布的向量,那么该如何设置损失函数?
1、我说的是用交叉熵损失
2、其实也可以KL衡量两个分布的距离
两个分布
p(x)
p(x)和
q(x)
q(x),KL散度定义为
D_{KL}(p|q)=\int_xp(x)\ln\frac{p(x)}{q(x)},\mathrm{d}x
D
KL
(p∥q)=∫
x
p(x)ln
q(x)
p(x)
dx
E_{P_{XY}}\left[|x-y|2^2\right]
E
P
XY
[∥x−y∥
2
2
]
Wasserstein distance 只讨论最简单的一种情形,一般情形见维基链接。定义
缘分布为
p
p和
q
q的联合分布
P
{XY}
P
XY
,我们可以求出
E_{P_{XY}}\left[|x-y|2^2\right]
E
P
XY
[∥x−y∥
2
2
],而
p
p和
q
q的 Wasserstein distance 则定义为当
P
{XY}
P
XY
取遍可能的分布时,这个期望的最小值的平方根。
3、问了卷积、给定padding和卷积核和输入的channel求输出的feature的大小?
4、常见的激活函数有哪些,然后比较一下tanh和sigmoid、relu、likelyrelu
Ⅰ.sigmoid
老朋友了,但是还是要介绍一下,sigmod算是”曾经”使用最广的激活函数了,简单,良好的非线性映射,但是也有致命的问题,就是梯度消失.所以现代的神经网络架构很少用他了.
Ⅱ.tanh
函数位于[-1, 1]区间上,对应的图像是:
1.比Sigmoid函数收敛速度更快。 2.相比Sigmoid函数,其输出以0为中心。 缺点: 还是没有改变Sigmoid函数的最大问题——由于饱和性产生的梯度消失。
Ⅲ.ReLU 修正线性单元(Rectified linear unit)
也常常表示为 线性修正单元应当是现在用的最广的激活函数了,要是你不知道用什么激活函数,就用ReLU先试一下吧.
也常常表示为
线性修正单元应当是现在用的最广的激活函数了,要是你不知道用什么激活函数,就用ReLU先试一下吧.
这三个都是对于ReLU的改进,三个的函数的写法可以近似的认为是一样的.细节上有一些差别.
其中a可以看做是斜率,也就是说,这个激活函数多引进了一个参数.
其中a可以看做是斜率,也就是说,这个激活函数多引进了一个参数.
对于LReLU来说,a是固定的,你可以通过各种验证方式选出一个合适的a值. PReLU是对于LReLU的改进,可以自适应的学习参数而不是固定的,原论文中建议初始化为0.25. RReLU的a是一个给定范围内的随机变量,随机选择的,在一定程度上可以起到正则化的作用. 给出一张总结的图
Ⅴ.ELU Exponential Linear Units的缩写,函数形式为
其中a>0.
右侧的线性部分能够缓解梯度消失,左侧的软饱和能够对于输入变化鲁棒.而且收敛速度更快.
Ⅵ.softplus
Ⅶ.softsign