Perceptron Mk1：视频分析AI的价格屠夫，80%成本背后是什么？

作者：小学子 | 日期：2026年5月15日

一条搅动整个AI行业的价格鲶鱼

2026年5月14日，一家成立仅两年的创业公司 Perceptron Inc. 发布了一款视频分析推理模型 Mk1（Mark One），定价$0.15/M输入tokens、$1.50/M输出tokens——比 Anthropic 的 Claude Sonnet 4.5、OpenAI 的 GPT-5、Google 的 Gemini 3.1 Pro 便宜 80%~90%。

这个数字是什么概念？做个直观对比：

每百万Tokens成本对比

$0.15 vs $2.00+

Perceptron Mk1 vs 行业平均水准

这不只是价格战——这是把高端视频AI从"实验室奢侈品"变成"工业级日用品"的关键一跳。

性能：便宜没好货？

通常低价意味着能力妥协。但 Mk1 在各项基准测试中展现了令人意外的成绩：

基准测试	Perceptron Mk1	对比最强竞品
EmbSpatialBench（空间推理）	85.1	Google Robotics-ER 1.5: 78.4
RefSpatialBench（指代表达理解）	72.4	GPT-5m: 9.0 \| Claude Sonnet 4.5: 2.2
EgoSchema Hard Subset（视频理解）	41.4	Gemini 3.1 Flash-Lite: 25.0
VSI-Bench（时序视觉推理）	88.5	全场最高

尤其是 RefSpatialBench 这个指标——72.4 分对 2.2 分，这是数量级上的碾压。意味着 Mk1 能精准理解"画面中第三个人手里的杯子"这类细粒度指代，而竞品几乎完全失灵。

核心技术：为什么要做"物理推理"？

Perceptron 提出了一个概念——Physical Reasoning（物理推理）。

传统视觉语言模型（VLM）把视频当作一串静态图片来处理，丢掉了时间维度的连续性。Mk1 的架构从零开始设计，专门解决两个问题：

时序连续性（Temporal Continuity）

可处理最高 2 FPS 的原生视频流，在 32K token 的上下文窗口内追踪物体同一性——即使物体被遮挡后再次出现，模型依然知道它是同一个物体。这对机器人视觉和监控场景至关重要。

物理定律理解

模型能理解因果和物理规律。比如分析篮球投篮是否在蜂鸣器响起前完成——需要联合推理球的空中位置和计时钟读数，这不是单纯模式识别能做到的。

"我们正在进入一个AI必须理解因果、物体动力学和物理定律的时代，就像它们曾经熟练处理语法一样。"
—— Perceptron 官方博客

创始人背景：从 Meta FAIR 到物理AI

Perceptron 由 Armen Aghajanyan 和 Akshat Shrivastava 联合创立，两人在 Meta 的 Facebook AI Research（FAIR）实验室共事多年。

他们的技术谱系可追溯至：

2024年5月 — Meta 发布 Chameleon：早期融合的混合模态（文本+图像）基础模型
2024年7月 — MoMa 论文：更高效的多模态早期融合训练方法
2024年11月 — Perceptron AI 成立，专注"Physical AI"方向

双轨策略：闭源API + 开源权重

Perceptron 采取了独特的双轨授权模式：

产品线	类型	定价	定位
Perceptron Mk1	闭源 API	$0.15/M输入 / $1.50/M输出	企业级性能与安全
Isaac 0.2	开源权重（HuggingFace）	免费（商用需许可证）	边缘/低延迟部署，TTFT <200ms

Isaac 系列面向需要本地部署或实时性要求极高的场景，比如工厂流水线上的实时缺陷检测。

实际应用场景

体育自动剪辑：实时识别比赛关键时刻，自动生成精彩集锦
工业质检：多模态质量控制Agent，实时检测流水线缺陷并验证装配步骤
机器人遥操作数据标注：将人类操作视频自动转化为机器人训练数据
智能眼镜助手：为AR设备提供上下文感知的视觉帮助
安防监控：理解视频流中的异常行为，可联系上下文追踪目标

为什么价格能压到这么低？

Perceptron 没有透露具体技术细节，但从公开信息可以推测几个关键因素：

1. 专为视频设计的架构，而非复用通用多模态

大多数大厂的视频能力是建立在语言模型基础上的"附加层"，而 Perceptron 从第一天就围绕视频设计——避免了大量冗余计算。

2. 聚焦物理AI这个细分赛道

不做通用助手、不做代码生成、不做创意写作，专注空间推理和时序理解，可以用更小的参数规模达到甚至超越通用模型在特定任务上的表现。

3. 高效的token利用

32K context 处理 2 FPS 视频意味着能在有限窗口内覆盖较长时段，同时保持低成本。

行业影响：效率 Frontier 重新定义

Perceptron 在博客中提出了一个"效率 Frontier"概念——将基准测试均分与每百万token成本进行联合可视化。

在这个图表上，Mk1 位于一个前所未有的位置：匹配 GPT-5、Gemini 3.1 Pro 的分数，但成本接近 Lite/Flash 版本。

这意味着 AI 基础设施的性价比曲线正在被改写。过去企业为高端视频分析付出的溢价空间，将面临压缩。

怎么看这件事？

Perceptron Mk1 的出现揭示了一个趋势：专用模型与通用模型之间的成本效益比正在逆转。

通用大模型追求的是全面能力，但很多工业场景只需要"精准理解视频中发生了什么"这一件事做得好。在这个维度上专用模型不仅更好，而且更便宜。

对于 AI 行业来说，这是一个值得警惕的信号——对于正在烧钱做通用多模态的创业公司而言，Perceptron 证明了垂直赛道的价格战可以有多凶猛。

对于企业采购者而言，这是好消息：视频AI的工业化部署终于有了经济上的可行性。

参考链接

📚 小学子，每日为你梳理AI领域的重要进展。关注公众号，持续获取深度解读。