FAST：面向视觉-语言-动作模型的高效动作token化技术

FAST：Efficient Action Tokenization for Vision-Language-Action Models

这篇论文解决了当前机器人“学动作”时的一个关键痛点，咱们先从“为什么需要研究这个问题”入手，再一步步看懂FAST模型的核心原理。

一、先搞懂背景：机器人“学动作”时遇到的“token化难题”

首先要明确一个核心概念：VLA模型（视觉-语言-动作模型）。简单说，这类模型是机器人的“大脑”——它能看（视觉）、懂指令（语言）、输出动作（比如机械臂抓杯子、机器人走路），而“动作”是机器人最终执行任务的关键。

但这里有个问题：机器人的动作是“连续的”（比如机械臂关节角度从30°慢慢转到60°），而当前最常用的动作建模工具（比如Transformer）只能处理“离散的符号”（就像我们说话的单词、写字的字母）。所以必须把“连续动作”转换成“离散符号”，这个过程就叫动作token化（把动作切成一个个“动作单词”）。

1.1 过去的token化方法：简单但“高频必崩”

之前的VLA模型（比如OpenVLA）用的是一种很直接的token化方式——逐维度、逐时间步分箱（binning）。具体怎么做呢？

比如机械臂有“关节角度”“夹爪力度”两个动作维度，每个维度的取值范围（比如角度0°-180°）被分成256个“箱子”（bin）；
每个时间步的动作（比如t1时刻关节角度50°、力度20N），就对应两个“箱子编号”（比如50°对应第10号箱，20N对应第5号箱），这两个编号就是“动作token”。

这种方法在低频动作（比如机器人慢慢推箱子，1秒只需要输出10个动作指令）时还行，但一到高频动作（比如机械臂快速抓弹珠，1秒要输出100个动作指令）就彻底“拉胯”了。论文里用一个“教学实验”把这个问题讲得特别清楚：

实验：预测一条“插值曲线”

论文设计了一个简单任务：给4个随机点（比如坐标(1,2)、(3,5)等），让模型预测一条能把这4个点连起来的平滑曲线（类似我们用尺子画的连线）。为了模拟“不同频率的动作”，实验把曲线的“采样率”从25个时间步（低频）调到800个时间步（高频）——就像机器人1秒输出25个动作，变成1秒输出800个动作。

结果特别明显：

低频时（25个时间步）：分箱法token化的模型能准确预测曲线，误差（MSE）很低；
高频时（800个时间步）：误差急剧上升，最后模型干脆“摆烂”——只重复第一个动作，完全预测不出平滑曲线。

1.2 问题根源：高频下“动作token没信息”

为什么会这样？核心原因和自回归模型的训练逻辑有关。

自回归模型（比如Transformer）的训练目标是：“根据前面所有token，预测下一个token”。它能学习的前提是——“下一个token”必须包含新信息！如果下一个token和前面的token几乎一样，模型就没东西可学，训练自然会失败。

而分箱法在高频场景下，正好踩了这个坑：

高频动作的“时间步特别短”（比如1秒800步，每步只有0.00125秒）；
平滑动作在这么短的时间里，变化几乎可以忽略（比如关节角度从30°变成30.001°）；
这种微小变化，用分箱法token化后，“下一个token”和“前一个token”大概率是同一个（比如都对应第15号箱）——相当于“下一个token”没有任何新信息，模型学不到东西，只能乱猜或重复之前的动作。

论文里还举了个真实例子：OpenVLA在低频数据集（比如BridgeV2，1秒几十步动作）上表现很好，但在高频数据集（比如DROID，1秒几百步动作）上就完全拟合不了——本质就是分箱法的“高频失效”问题。

二、FAST模型：用“频域压缩”解决高频难题

既然“时域（时间步）token化”在高频下不行，论文就换了个思路：不从时间维度切分动作，而是从“频率维度”切分——这就是FAST（Frequency-space Action Sequence Tokenization，频域动作序列token化）的核心。

2.1 核心思想：把“时间动作”变成“频率成分”

先给大家普及一个基础概念：任何平滑的时间信号（比如机器人的动作、我们说话的声音），都可以拆成不同频率的“正弦波”叠加。比如一条平滑曲线，能拆成“低频波”（慢变化，比如整体趋势）和“高频波”（快变化，比如局部抖动）。

分箱法是在“时域”（时间轴）上把动作切成一个个小步，而FAST是先把动作信号“转换到频域”，再对“频率成分”进行token化——这样做的好处是：高频动作的“关键信息”会集中在少数频率成分里，不会像时域那样分散在无数重复的时间步中。

具体来说，FAST用了一个经典的信号处理工具——离散余弦变换（DCT）。大家不用怕这个术语，简单理解DCT的作用：

输入：一个时域的动作序列（比如800个时间步的关节角度数据）；
输出：一组“频率系数”——每个系数代表一个“频率成分”的强度（比如第一个系数对应“最低频”，最后一个系数对应“最高频”）。

关键是：平滑动作的高频成分强度很低，可以被压缩掉。比如800个时间步的动作，经过DCT后，可能只需要保留50个频率系数，就能完全还原出原动作——这就把“800个时域token”压缩成了“50个频域token”，既减少了token数量，又保留了关键信息。

2.2 FAST的三步token化流程

FAST的操作其实很清晰，分三步就能完成“连续动作→离散token”的转换：

第一步：动作序列分块

把长动作序列（比如1000个时间步）分成固定长度的“块”（比如每块64个时间步）——就像我们把一篇长文分成一个个段落，方便处理。

第二步：DCT转换+压缩

对每个“动作块”做DCT，得到一组频率系数。然后做“压缩”：

保留“低频系数”（因为平滑动作的主要信息在低频，比如关节转动的整体趋势）；
丢弃“高频系数”（因为高频系数要么是噪声，要么是微小变化，对动作整体影响不大）。

比如64个时间步的动作块，经过DCT后可能只保留16个低频系数——相当于把64个时域数据压缩成16个频域数据，效率大大提升。

第三步：量化成token

把压缩后的“频率系数”转换成离散token。这里不用分箱法，而是用更高效的“量化方法”（比如标量量化或矢量量化）：

先给每个频率系数设定一个“量化范围”（比如低频系数的范围是0-100，分成32个等级）；
每个频率系数对应一个等级编号，这个编号就是“频域token”。

比如16个频率系数，每个对应一个32级的编号，最终每个动作块会生成16个token——而如果用分箱法，64个时间步可能要生成64×动作维度个token（比如2个维度就是128个token），FAST的token数量直接减少了8倍！

2.3 FAST的核心优势：高频场景下“token有信息”

回到之前的“插值曲线实验”，FAST为什么能解决高频问题？

因为在频域里，“高频动作的信息”被浓缩到了少数频率系数中，即使采样率提高（比如800个时间步）：

DCT转换后，频率系数的“差异性”依然很大（比如低频系数代表整体趋势，中频系数代表局部变化，高频系数代表细节）；
这些系数量化成token后，“下一个token”和“前一个token”的信息差异很明显——自回归模型能学到有用的规律，自然能准确预测曲线。

论文里的实验结果也证明了这一点：不管采样率从25调到800，FAST token化的模型都能保持低误差，预测出平滑的曲线——彻底解决了分箱法的“高频失效”问题。

三、FAST+：让FAST变成“通用动作tokenizer”

论文没有止步于FAST，还做了一个更实用的升级——FAST+，也就是“通用机器人动作tokenizer”。

为什么需要FAST+？因为不同机器人的“动作空间”差异很大：

有的机器人是机械臂（6个关节角度+1个夹爪力度，共7个动作维度）；
有的机器人是移动机器人（前进速度+转向角度，共2个动作维度）；
它们的“控制频率”也不同（有的1秒50步，有的1秒200步）。

如果针对每个机器人都重新训练一个FAST，成本太高。所以FAST+做了两件关键的事：

大规模数据预训练：用100万条真实机器人的动作轨迹（涵盖不同机器人、不同动作维度、不同频率）训练FAST+，让它学会“通用的动作频域特征”；
黑箱调用：不管是哪种机器人的动作序列，直接输入FAST+，它就能自动输出合适的token——不用再针对具体任务调整参数，像用“翻译软件”一样方便。

四、实际效果：又快又好的VLA训练

最后，论文用真实的机器人任务验证了FAST的价值，核心结果有两个：

1. 能搞定“高频灵巧任务”

之前分箱法完全拟合不了的高频数据集（比如需要快速调整动作的“灵巧操作”任务），用FAST token化后，自回归VLA模型（比如pi0 VLA）能轻松拟合，动作预测准确率和“扩散模型VLA”（当前效果最好但训练慢的模型）持平。

2. 训练速度提升5倍

扩散模型VLA虽然效果好，但训练需要大量计算资源和时间；而用FAST+的自回归VLA，因为token数量少、模型学习效率高，训练时间直接减少了5倍——这对工业界来说太重要了，意味着用更少的成本就能训练出好用的机器人模型。

论文还提到，他们把FAST+和pi0 VLA结合，成功在1万小时的机器人数据上完成训练——这是之前分箱法完全做不到的“大规模训练”。

总结：FAST的核心贡献

解决了高频动作token化的痛点：用DCT频域转换，替代传统的时域分箱，让高频动作的token依然有“可学习的信息”；
通用性强：FAST+预训练后，能作为“黑箱”适配不同机器人、不同动作维度和频率；
效率高：让自回归VLA能和扩散模型比效果，同时训练速度提升5倍，支持大规模数据训练。

简单来说，FAST就像给机器人的“动作大脑”换了一套“更高效的语言”——之前机器人在高频动作下“说不出连贯的话”，现在用FAST的“频域语言”，既能准确表达动作，又能学得更快。这对未来“灵巧机器人”（比如做手术的机器人、组装精密零件的机器人）的发展，是非常关键的一步。

FAST：面向视觉-语言-动作模型的高效动作token化技术