图像生成领域目前分为对离散记号操作的自回归(AR)模型和利用连续潜伏期的扩散模型。这种分歧,根源于VQ-VAEs和VAEs之间的区别,阻碍了统一建模和公平的基准测试。有限标量量子化(FSQ)提供了一个理论桥梁,但香草FSQ有一个严重的缺陷:它的等间隔量子化会导致激活崩溃。这种不匹配迫使在重建保真度和信息效率之间进行权衡。在这项工作中,我们通过简单地用分布匹配映射替换原始FSQ中的激活函数来执行统一的先验,从而解决了这个难题。称为iFSQ,这种简单的策略只需要一行代码,但在数学上保证了最佳的面元利用率和重建精度。利用iFSQ作为受控基准,我们揭示了两个关键的见解:(1)离散和连续表示之间的最佳平衡位于每维大约4位。(2)在相同的重建约束条件下,AR模型表现出快速的初始收敛,而扩散模型实现了优越的性能上限,这表明严格的顺序排序可能会限制生成质量的上限。最后,我们通过将表示对齐(REPA)应用于AR模型来扩展我们的分析,产生了LlamaGen-REPA。
图像生成领域目前分为对离散记号操作的自回归(AR)模型和利用连续潜伏期的扩散模型。这种分歧,根源于VQ-VAEs和VAEs之间的区别,阻碍了统一建模和公平的基准测试。有限标量量子化(FSQ)提供了一个理论桥梁,但香草FSQ有一个严重的缺陷:它的等间隔量子化会导致激活崩溃。这种不匹配迫使在重建保真度和信息效率之间进行权衡。在这项工作中,我们通过简单地用分布匹配映射替换原始FSQ中的激活函数来执行统一的先验,从而解决了这个难题。称为iFSQ,这种简单的策略只需要一行代码,但在数学上保证了最佳的面元利用率和重建精度。利用iFSQ作为受控基准,我们揭示了两个关键的见解:(1)离散和连续表示之间的最佳平衡位于每维大约4位。(2)在相同的重建约束条件下,AR模型表现出快速的初始收敛,而扩散模型实现了优越的性能上限,这表明严格的顺序排序可能会限制生成质量的上限。最后,我们通过将表示对齐(REPA)应用于AR模型来扩展我们的分析,产生了LlamaGen-REPA。