星星博客 »  > 

effective_transformer

对字节跳动 effective_transformermer的理解

transformer模型在self-attention的时候,需要用到统一输入batch的长度。但是其他模块不需要。因此,在其他模块(FF模块)可以移除pad token

 

相关文章