ICML 2025 |如何使用“自动完成”实现100K生成3×加?

目前,当模型的大尺寸理解变得越来越复杂时,产生超长文本的速度已成为扩展模型和优化的主要挑战。凭借GPT-O3的能力,DeepSeek R1(例如“超级上下文窗口”)继续摧毁行业记录,数百万个或什至数万个代币的推理活动已从研究主题转变为现实生活中的情景。但是,在这些超长文本的形成背后,存在令人惊叹的计算长期成本,巨大的记忆负担以及偶尔的沉闷输出,这些输出严重限制了这些模型的真正潜力。面对这一挑战,Bigai NLCO团队提出了一个新的合理性概述-Tokenswift,已成功接受ICML 2025!在这项研究中,已经提出了一种可插入,无损和出色的快速代方法等级。在保持原始模型输出的身份的同时,加速度比率达到了3倍以上,从而大大提高了识别效率。纸张标题:tokenswift:超长序列的无损加速器:https://arxiv.org/abs/2502.18890github:https://github.com/bigai-nlco/tokenswiftblog:htttps Ultra-nra-o-ntra-o-ntra-o-ntra-o-ntra-o-ntra-o-ntra-o-ntra-o-ntra-o-ntra-o-ntra-o-ntra-o-ntra-o-ntra-o-ntra-o-ntra开发:为什么传统方法“慢”?为了更好地理解TokensWift的重要性,让我们首先看一下基本模型(例如Llama,Qwen等)中的瓶颈。尽管这些模型具有强大的产生上下文的能力,但大多数AREIT仍使用传统的自回归生成方法:同时仅形成一个新的令牌,然后将下一个用于使用它作为输入。该方法本身不是短期文本中的主要问题,但是当订单的长度扩展到1时00,000或以上,性能大大下降。有三个主要因素:建模和重新加载:每当形成一个令牌时,都会猛烈争论;当管道的过程或实现许多过程或实现时,该模型需要继续读取参数,从而导致I/O的瓶颈。 KV缓存无限膨胀:变压器体系结构需要所有历史令牌的关键/价值信息,以维护后续令牌的注意力计算。随着母鸡的过程的进行,KV缓存的使用将继续增加,从而导致计算和内存开销的恶化。语义重复重复:生成越长,模型就越容易重复结构和句子主题的重复,减少了差异 - 输出和用户体验。尤其是在当前不断增长的多轮对话,大型模型代理,连续的推理和其他活动时,查询可以触发r成千上万甚至数千人分散了令牌输出的注意力。显然,传统的自动训练的效率很难满足需求。 tokenswift:在过度理性合理性的情况下,tokenswift提案是解决上述超长一代中的三个主要瓶颈。这是通过非常轻巧和高效的情节“重构”传统自动加工的,并提出了一种以“在并行验证 +动态缓存更新中”为中心的“多toke taffting +”的新机制。我们将逐渐破坏Tokenswift的基本技术概念:✳️在平行起草中多个代币:告别一致的易用性。在TokensWift中,“一个步骤令牌”的生成模式不再顺应,而是通过最小化和更改现有模型(添加非常少量的线性层),“同时起草多个令牌”。这意味着MO的每个前进传播DEL可以产生相似的候选令牌,从而大大降低了模型的重新加载频率和大量节省的I/O时间。更重要的是,起草阶段是“随机预测”。引入了上下文指南机制,以使草案结果具有较高的语义相关性和语法的一致性,然后确保通过有组织的验证机制与标准AR路径保持一致。