BigBird (由
该论文 引入) 是解决这个问题的最新模型之一。
BigBird 依赖于
块稀疏注意力 而不是普通注意力 (
BERT 的注意力),与 BERT 相比,这一新算法能以低得多的计算成本处理长达
4096 的序列。在涉及很长序列的各种任务上,该模型都实现了 SOTA,例如长文档摘要、长上下文问答。