单项选择题
Transformer中的Q,K,V为什么用不同的权重矩阵生成()
A.无实际的意义
B.减小表达能力
C.降低了泛华能力
D.这样可以在不同的空间上进行投影,增加表达能力
点击查看答案
相关考题
-
单项选择题
RNN和CNN都可以处理文本,哪个处理长文本效果更好()
A.RNN
B.CNN
C.一样好
D.不确定 -
单项选择题
传统的RNN存在哪些问题()
A.没有任何问题
B.造成梯度消失和梯度爆炸
C.特征提取效果好 -
单项选择题
Transformer的突破点在哪()
A.将Attention机制发挥到了机制,完全摒弃了CNN/RNN
B.更加深层的使用了RNN系列的模型
C.使用了LSTM作为了特征提取
D.模型中的encoder层和decoder层的结构完全一样
