FAST:面向视觉-语言-动作模型的高效动作token化技术

FAST:Efficient Action Tokenization for Vision-Language-Action Models

这篇论文解决了当前机器人“学动作”时的一个关键痛点,咱们先从“为什么需要研究这个问题”入手,再一步步看懂FAST模型的核心原理。

一、先搞懂背景:机器人“学动作”时遇到的“token化难题”

首先要明确一个核心概念:VLA模型(视觉-语言-动作模型)。简单说,这类模型是机器人的“大脑”——它能看(视觉)、懂指令(语言)、输出动作(比如机械臂抓杯子、机器人走路),而“动作”是机器人最终执行任务的关键。

但这里有个问题:机器人的动作是“连续的”(比如机械臂关节角度从30°慢慢转到60°),而当前最常用的动作建模工具(比如Transformer)只能处理“离散的符号”(就像我们说话的单词、写字的字母)。所以必须把“连续动作”转换成“离散符号”,这个过程就叫动作token化(把动作切成一个个“动作单词”)。

1.1 过去的token化方法:简单但“高频必崩”

之前的VLA模型(比如OpenVLA)用的是一种很直接的token化方式——逐维度、逐时间步分箱(binning)。具体怎么做呢?

  • 比如机械臂有“关节角度”“夹爪力度”两个动作维度,每个维度的取值范围(比如角度0°-180°)被分成256个“箱子”(bin);
  • 每个时间步的动作(比如t1时刻关节角度50°、力度20N),就对应两个“箱子编号”(比如50°对应第10号箱,20N对应第5号箱),这两个编号就是“动作token”。

这种方法在低频动作(比如机器人慢慢推箱子,1秒只需要输出10个动作指令)时还行,但一到高频动作(比如机械臂快速抓弹珠,1秒要输出100个动作指令)就彻底“拉胯”了。论文里用一个“教学实验”把这个问题讲得特别清楚:

实验:预测一条“插值曲线”

论文设计了一个简单任务:给4个随机点(比如坐标(1,2)、(3,5)等),让模型预测一条能把这4个点连起来的平滑曲线(类似我们用尺子画的连线)。为了模拟“不同频率的动作”,实验把曲线的“采样率”从25个时间步(低频)调到800个时间步(高频)——就像机器人1秒输出25个动作,变成1秒输出800个动作。

结果特别明显:

  • 低频时(25个时间步):分箱法token化的模型能准确预测曲线,误差(MSE)很低;
  • 高频时(800个时间步):误差急剧上升,最后模型干脆“摆烂”——只重复第一个动作,完全预测不出平滑曲线。

1.2 问题根源:高频下“动作token没信息”

为什么会这样?核心原因和自回归模型的训练逻辑有关。

自回归模型(比如Transformer)的训练目标是:“根据前面所有token,预测下一个token”。它能学习的前提是——“下一个token”必须包含新信息!如果下一个token和前面的token几乎一样,模型就没东西可学,训练自然会失败。

而分箱法在高频场景下,正好踩了这个坑:

  • 高频动作的“时间步特别短”(比如1秒800步,每步只有0.00125秒);
  • 平滑动作在这么短的时间里,变化几乎可以忽略(比如关节角度从30°变成30.001°);
  • 这种微小变化,用分箱法token化后,“下一个token”和“前一个token”大概率是同一个(比如都对应第15号箱)——相当于“下一个token”没有任何新信息,模型学不到东西,只能乱猜或重复之前的动作。

论文里还举了个真实例子:OpenVLA在低频数据集(比如BridgeV2,1秒几十步动作)上表现很好,但在高频数据集(比如DROID,1秒几百步动作)上就完全拟合不了——本质就是分箱法的“高频失效”问题。

二、FAST模型:用“频域压缩”解决高频难题

既然“时域(时间步)token化”在高频下不行,论文就换了个思路:不从时间维度切分动作,而是从“频率维度”切分——这就是FAST(Frequency-space Action Sequence Tokenization,频域动作序列token化)的核心。

2.1 核心思想:把“时间动作”变成“频率成分”

先给大家普及一个基础概念:任何平滑的时间信号(比如机器人的动作、我们说话的声音),都可以拆成不同频率的“正弦波”叠加。比如一条平滑曲线,能拆成“低频波”(慢变化,比如整体趋势)和“高频波”(快变化,比如局部抖动)。

分箱法是在“时域”(时间轴)上把动作切成一个个小步,而FAST是先把动作信号“转换到频域”,再对“频率成分”进行token化——这样做的好处是:高频动作的“关键信息”会集中在少数频率成分里,不会像时域那样分散在无数重复的时间步中

具体来说,FAST用了一个经典的信号处理工具——离散余弦变换(DCT)。大家不用怕这个术语,简单理解DCT的作用:

  • 输入:一个时域的动作序列(比如800个时间步的关节角度数据);
  • 输出:一组“频率系数”——每个系数代表一个“频率成分”的强度(比如第一个系数对应“最低频”,最后一个系数对应“最高频”)。

关键是:平滑动作的高频成分强度很低,可以被压缩掉。比如800个时间步的动作,经过DCT后,可能只需要保留50个频率系数,就能完全还原出原动作——这就把“800个时域token”压缩成了“50个频域token”,既减少了token数量,又保留了关键信息。

2.2 FAST的三步token化流程

FAST的操作其实很清晰,分三步就能完成“连续动作→离散token”的转换:

第一步:动作序列分块

把长动作序列(比如1000个时间步)分成固定长度的“块”(比如每块64个时间步)——就像我们把一篇长文分成一个个段落,方便处理。

第二步:DCT转换+压缩

对每个“动作块”做DCT,得到一组频率系数。然后做“压缩”:

  • 保留“低频系数”(因为平滑动作的主要信息在低频,比如关节转动的整体趋势);
  • 丢弃“高频系数”(因为高频系数要么是噪声,要么是微小变化,对动作整体影响不大)。

比如64个时间步的动作块,经过DCT后可能只保留16个低频系数——相当于把64个时域数据压缩成16个频域数据,效率大大提升。

第三步:量化成token

把压缩后的“频率系数”转换成离散token。这里不用分箱法,而是用更高效的“量化方法”(比如标量量化或矢量量化):

  • 先给每个频率系数设定一个“量化范围”(比如低频系数的范围是0-100,分成32个等级);
  • 每个频率系数对应一个等级编号,这个编号就是“频域token”。

比如16个频率系数,每个对应一个32级的编号,最终每个动作块会生成16个token——而如果用分箱法,64个时间步可能要生成64×动作维度个token(比如2个维度就是128个token),FAST的token数量直接减少了8倍!

2.3 FAST的核心优势:高频场景下“token有信息”

回到之前的“插值曲线实验”,FAST为什么能解决高频问题?

因为在频域里,“高频动作的信息”被浓缩到了少数频率系数中,即使采样率提高(比如800个时间步):

  • DCT转换后,频率系数的“差异性”依然很大(比如低频系数代表整体趋势,中频系数代表局部变化,高频系数代表细节);
  • 这些系数量化成token后,“下一个token”和“前一个token”的信息差异很明显——自回归模型能学到有用的规律,自然能准确预测曲线。

论文里的实验结果也证明了这一点:不管采样率从25调到800,FAST token化的模型都能保持低误差,预测出平滑的曲线——彻底解决了分箱法的“高频失效”问题。

三、FAST+:让FAST变成“通用动作tokenizer”

论文没有止步于FAST,还做了一个更实用的升级——FAST+,也就是“通用机器人动作tokenizer”。

为什么需要FAST+?因为不同机器人的“动作空间”差异很大:

  • 有的机器人是机械臂(6个关节角度+1个夹爪力度,共7个动作维度);
  • 有的机器人是移动机器人(前进速度+转向角度,共2个动作维度);
  • 它们的“控制频率”也不同(有的1秒50步,有的1秒200步)。

如果针对每个机器人都重新训练一个FAST,成本太高。所以FAST+做了两件关键的事:

  1. 大规模数据预训练:用100万条真实机器人的动作轨迹(涵盖不同机器人、不同动作维度、不同频率)训练FAST+,让它学会“通用的动作频域特征”;
  2. 黑箱调用:不管是哪种机器人的动作序列,直接输入FAST+,它就能自动输出合适的token——不用再针对具体任务调整参数,像用“翻译软件”一样方便。

四、实际效果:又快又好的VLA训练

最后,论文用真实的机器人任务验证了FAST的价值,核心结果有两个:

1. 能搞定“高频灵巧任务”

之前分箱法完全拟合不了的高频数据集(比如需要快速调整动作的“灵巧操作”任务),用FAST token化后,自回归VLA模型(比如pi0 VLA)能轻松拟合,动作预测准确率和“扩散模型VLA”(当前效果最好但训练慢的模型)持平。

2. 训练速度提升5倍

扩散模型VLA虽然效果好,但训练需要大量计算资源和时间;而用FAST+的自回归VLA,因为token数量少、模型学习效率高,训练时间直接减少了5倍——这对工业界来说太重要了,意味着用更少的成本就能训练出好用的机器人模型。

论文还提到,他们把FAST+和pi0 VLA结合,成功在1万小时的机器人数据上完成训练——这是之前分箱法完全做不到的“大规模训练”。

总结:FAST的核心贡献

  1. 解决了高频动作token化的痛点:用DCT频域转换,替代传统的时域分箱,让高频动作的token依然有“可学习的信息”;
  2. 通用性强:FAST+预训练后,能作为“黑箱”适配不同机器人、不同动作维度和频率;
  3. 效率高:让自回归VLA能和扩散模型比效果,同时训练速度提升5倍,支持大规模数据训练。

简单来说,FAST就像给机器人的“动作大脑”换了一套“更高效的语言”——之前机器人在高频动作下“说不出连贯的话”,现在用FAST的“频域语言”,既能准确表达动作,又能学得更快。这对未来“灵巧机器人”(比如做手术的机器人、组装精密零件的机器人)的发展,是非常关键的一步。


评论

《“FAST:面向视觉-语言-动作模型的高效动作token化技术”》 有 1 条评论

  1. 您好,这是一条评论。若需要审核、编辑或删除评论,请访问仪表盘的评论界面。评论者头像来自 Gravatar

回复 一位 WordPress 评论者 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注