相关考题
-
单项选择题
Transformer中的Q,K,V为什么用不同的权重矩阵生成()
A.无实际的意义
B.减小表达能力
C.降低了泛华能力
D.这样可以在不同的空间上进行投影,增加表达能力 -
单项选择题
RNN和CNN都可以处理文本,哪个处理长文本效果更好()
A.RNN
B.CNN
C.一样好
D.不确定 -
单项选择题
传统的RNN存在哪些问题()
A.没有任何问题
B.造成梯度消失和梯度爆炸
C.特征提取效果好
