单项选择题
seq2seq有什么样的缺点()
A.将decoder端的信息压缩到了一个固定向量中B.将encoder端的信息压缩到了一个固定的向量中C.没有用到神经网络D.没有任何缺点
单项选择题 特征提取器Transformer为什么使用多头机制()
判断题 BERT和ELMO使用的都是是单向的Transformer。
判断题 在迭代次数够多的情况下Glove会比Word2Vec效果好。