Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

简介

近年来，语言模型（LM）领域取得了重大进展，这主要得益于从针对特定任务设计的专用模型转向基于强大架构（例如Transformer）的通用模型，后者能够完全从原始数据中进行学习。尽管存在这一趋势，诸如分词之类的预处理步骤仍然是实现真正端到端基础模型的障碍。我们提出了一系列新技术，支持一种动态分块机制，该机制可以与模型的其余部分联合自动学习内容和上下文相关的分割策略。将这种机制整合进一个明确的层次化网络（H-Net）后，就可以用一个完全端到端训练的单一模型取代传统的（隐含层次结构的）分词-LM-去分词流程。在计算资源和数据量相匹配的情况下，一个采用字节级别单一层级结构的H-Net的表现优于基于BPE分词的强大Transformer语言模型。进一步将层级结构扩展到多个阶段，可以通过建模多个抽象层级而进一步提升性能，表现出更优的数据扩展性，并且达到与自身两倍大小的基于分词的Transformer相当的效果。在英文上预训练的H-Net展现出显著增强的字符级鲁棒性，并且无需任何启发式规则或显式监督即可定性地学习出有意义的数据相关分块策略。最后，在那些分词启发式较弱的语言和模态（如中文、代码或者DNA序列）中，H-Net相对于分词流程的优势更加明显（在数据效率方面提升接近4倍），展示了真正端到端模型在从未加工数据中更好学习和扩展的潜力。
解决问题

论文试图解决传统语言模型中预处理步骤（如分词）阻碍真正端到端建模的问题。现有的分词方法依赖启发式规则或特定领域知识，限制了模型的泛化能力和性能。这是一个相对较新的问题，随着模型向完全端到端发展，这个问题变得越来越重要。
关键思路

论文提出了一种动态分块机制，允许模型在学习过程中自动发现内容和上下文相关的分段策略。这一机制被集成到一个显式的层次网络（H-Net）中，取代传统的“分词-LM-去分词”流程。相比已有研究，其创新之处在于将分块过程与模型联合训练，并支持多级抽象层次。
其它亮点

1. H-Net 在字节级别上超越了基于 BPE 分词的 Transformer 模型 2. 通过多阶段层次结构进一步提升性能，展现出更好的数据扩展性 3. 在英文、中文、代码和 DNA 序列等多种任务中表现出更强的数据效率（例如在 DNA 上提升近 4 倍） 4. 无需人工规则或监督即可学到有意义的分块策略 5. 实验设计充分，在多个语言和模态上进行了验证
相关研究

1. 《Attention Is All You Need》(Vaswani et al., 2017) 提出了 Transformer 架构，成为现代 LMs 的基础 2. 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》(Devlin et al., 2018) 推动了预训练语言模型的发展 3. 《ByteNet: A Deep Learning Architecture for Character-Level Natural Language Processing》(Kalchbrenner et al., 2016) 是早期尝试字符级建模的工作 4. 《Generating Long Sequences with Sparse Transformers》(Child et al., 2019) 探索了稀疏注意力机制以处理长序列 5. 《Evoformer: A General Framework for Learning-based End-to-end Communication Systems》(Zhang et al., 2022) 展示了端到端系统建模的潜力

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论