单项选择题
特征提取器Transformer为什么使用多头机制()
A.增加模型的复杂度B.增加模型的运行时间C.保证了Transformer可以注意到不同的子空间,捕捉更丰富的信息D.无实际性的意义
判断题 BERT和ELMO使用的都是是单向的Transformer。
判断题 在迭代次数够多的情况下Glove会比Word2Vec效果好。
判断题 Glove进行编码的词向量可以解决一词多意。