Speculative Decoding (推测解码) 简介

Introduction speculative decoding (推测解码)的思想先有Deepmind 2023.02 发布(Accelerating Large Language Model Decoding with Speculative Sampling),后Google research 另一拨人在2023.05 又发了一篇 (Fast Inference from Transformers via Speculative Decoding)。基本思想都一致: tokens的生成有难易之分,对于一些"简单"的tokens (比如code生成中一些约定俗成的写法), 大小模型一致程度会比较高,因此可以用小模型快速生成,已提高inference的速度 i.e. 在code生成中,如果已经生成了"import numpy", 很自然地下面的token大概率是"…