单项选择题

A.增加模型的复杂度
B.增加模型的运行时间
C.保证了Transformer可以注意到不同的子空间,捕捉更丰富的信息
D.无实际性的意义