多项选择题

A.参数量更少,训练速度更快
B.并行计算能力更强
C.更适合长序列输入
D.自注意力机制能捕捉全局依赖