说说大全超长
先保存为文档再链接进去 谢谢
不同的模型有不同的策略:CNN/Fasttext可以直接处理超长序列,LSTM只能处理1000以内的序列,超过可以尝试IndRNN模型(文章说可以处理超过5000的序列),Transformer通常可以处理512左右的序列,自己的机器上测过大概在700左右,超过则显存爆了,Transformer-XL可以处理超长的序列。
不过有个问题可以探讨下,是否真的有必要处理超长序列,大部分NLP问题都不会涉及这个问题(可以转换为句子级或段落级来解决),可能涉及这个问题目前有文本分类(但文本分类可以用CNN/Fasttext也能效果不错)。所以关键是你得找到一个涉及超长序列语义理解的问题,我很想了解下这类问题。