让小模型先跑一会,大模型来收尾,推理速度提升2-3倍不再是梦想。
在大语言模型(LLM)席卷各行各业的今天,一个严峻的挑战摆在面前:模型推理速度严重跟不上实际应用需求。传统的自回归解码方式要求模型逐个生成token,如同单线程作业,造成了严重的计算瓶颈。而 Speculative Decoding(推测解码)技术的出现,正在从根本上改变这一局面。
技术概述:什么是 Speculative Decoding?
Speculative Decoding(推测解码)是一种创新的推理加速技术,其核心思想是 “小模型快速推测 + 大模型验证修正”。它通过协同利用大小两个模型,在不改变目标模型输出分布的前提下,显著减少推理过程中的计算开销。
与传统自回归模型逐个生成token的方式不同,推测解码采用两阶段管道:首先使用一个更小、更快的"草稿模型"(draft model)快速生成一段候选token序列;然后由"目�
张芷铭的个人博客
Comments