查词好,翻译快!
  • 翻文字
  • 翻文档
  • 翻图片
  • 改英文
检测为英语 中文
DonDurant
DonDurant
9/5000

图像生成领域目前分为对离散记号操作的自回归(AR)模型和利用连续潜伏期的扩散模型。这种分歧,根源于VQ-VAEs和VAEs之间的区别,阻碍了统一建模和公平的基准测试。有限标量量子化(FSQ)提供了一个理论桥梁,但香草FSQ有一个严重的缺陷:它的等间隔量子化会导致激活崩溃。这种不匹配迫使在重建保真度和信息效率之间进行权衡。在这项工作中,我们通过简单地用分布匹配映射替换原始FSQ中的激活函数来执行统一的先验,从而解决了这个难题。称为iFSQ,这种简单的策略只需要一行代码,但在数学上保证了最佳的面元利用率和重建精度。利用iFSQ作为受控基准,我们揭示了两个关键的见解:(1)离散和连续表示之间的最佳平衡位于每维大约4位。(2)在相同的重建约束条件下,AR模型表现出快速的初始收敛,而扩散模型实现了优越的性能上限,这表明严格的顺序排序可能会限制生成质量的上限。最后,我们通过将表示对齐(REPA)应用于AR模型来扩展我们的分析,产生了LlamaGen-REPA。

图像生成领域目前分为对离散记号操作的自回归(AR)模型和利用连续潜伏期的扩散模型。这种分歧,根源于VQ-VAEs和VAEs之间的区别,阻碍了统一建模和公平的基准测试。有限标量量子化(FSQ)提供了一个理论桥梁,但香草FSQ有一个严重的缺陷:它的等间隔量子化会导致激活崩溃。这种不匹配迫使在重建保真度和信息效率之间进行权衡。在这项工作中,我们通过简单地用分布匹配映射替换原始FSQ中的激活函数来执行统一的先验,从而解决了这个难题。称为iFSQ,这种简单的策略只需要一行代码,但在数学上保证了最佳的面元利用率和重建精度。利用iFSQ作为受控基准,我们揭示了两个关键的见解:(1)离散和连续表示之间的最佳平衡位于每维大约4位。(2)在相同的重建约束条件下,AR模型表现出快速的初始收敛,而扩散模型实现了优越的性能上限,这表明严格的顺序排序可能会限制生成质量的上限。最后,我们通过将表示对齐(REPA)应用于AR模型来扩展我们的分析,产生了LlamaGen-REPA。

复制
反馈

查询历史

暂时没有您的查询历史

不再显示查询历史

  • 重点词汇
  • bifurcated

    分叉;(bifurcate的过去式);分叉的;分为二支的

  • autoregressive

    自回归的

  • tokens

    代币;代价券;记号;表征;象征;标志;(token的复数)

  • hinders

    阻碍;(hinder的第三人称单数)

  • benchmarking

    (据某标准)评估,衡量,检测;(benchmark的现在分词);标杆管理;标记;确定基准点

  • scalar

    标量的;纯量的;无方向的;单一数值的;[数学]标量;[物理]纯量

  • vanilla

    香草;香草精;香草豆荚;香草味;香草提取物;香草香料;香草冰淇淋;香草色;浅奶油色;原味的;香草味的;无特色的;普通的

  • trade-off

    权衡;协调;折中;交换;互相妥协;利弊权衡

  • termed

    把…叫做;把…称为;(term的过去式和过去分词)

  • mathematically

    算术地