慧聪商业展示网

阿布扎比技术创新研究所发布Falcon Perception,助力机器高效理解物理世界

慧聪商业展示网 https://dj.hczyw.com 2026-05-21 20:28 出处:腾讯网 编辑:@bjyouchang
阿布扎比先进技术研究委员会 (ATRC)的应用研究部门——技术创新研究院 (TII)宣布推出 Falcon Perception,这是一款新一代多模态人工智能模型,具备视觉识别、阅读和解释物理世界的能力。在全球AI竞争加剧的背景下,阿

阿布扎比先进技术研究委员会 (ATRC)的应用研究部门——技术创新研究院 (TII)宣布推出 Falcon Perception,这是一款新一代多模态人工智能模型,具备视觉识别、阅读和解释物理世界的能力。在全球AI竞争加剧的背景下,阿联酋力争成为具备大规模开发先进多模态系统能力的国家之一,Falcon Perception正是实现这一目标的关键。

与许多拥有数百亿参数的主流多模态模型不同,Falcon Perception 拥有约 6 亿个参数。它在物体分割、密集视觉理解和文档智能处理方面表现出色,同时降低了对计算资源的需求。

虽然目前大多数广为人知的人工智能系统主要关注语言,但下一波人工智能创新浪潮的关键在于感知能力,多模态AI被广泛视为人工智能的下一个前沿。这类系统能够同时处理和理解多种类型的信息,例如图像和文字。随着AI逐步应用于机器人技术、制造业和智能基础设施等领域,机器理解物理世界并与之交互的能力变得至关重要。

Falcon Perception采用统一的基于Transformer的架构。它在模型输入层面实现了视觉特征和语言特征的端到端集成,从而使机器更接近人类理解物理世界的方式。该模型能够同时处理包含数百个物体的图像,即使在物体密集的环境中也能实现精准感知,不会出现幻觉或受结构限制的问题。

如今,多模态AI的进步很大程度上依赖于不断扩大的模型规模,而这需要极其庞大的基础设施支持。同时,许多视觉语言系统依赖于多个独立的组件:一个模型用于处理图像,另一个模型用于用语言解释图像。

这种分层方法增加了架构的复杂性,并提高了计算成本。对于那些在计算资源、延迟、安全性和成本方面受到严格限制的工业和企业环境来说,这些要求会限制实际部署的可能性。

与传统的将单独训练的计算机视觉和自然语言处理模块连接的路径不同,Falcon Perception 通过单一架构应对这一挑战,该架构从第一层就将图像处理和语言处理整合在一起。这种方法使模型能够在一个精简的系统中执行复杂的视觉推理任务,例如识别文本中描述的物体、在图像中精确分割物体以及从文档中读取文本。该架构还允许用户使用自然语言提示查询图像。

例如,用户可以对模型说“识别红色汽车”或“数一数有几罐汤”。即使场景中可见数百个物体,Falcon Perception 也能直接在图像中定位和分割物体。

这项能力为各种应用开辟了新的可能性,例如能够在复杂环境中遵循自然语言指令的机器人系统、制造业中的自动检测和缺陷检测,以及用于人工智能训练的大规模视觉数据标注。

TII首席执行官Najwa Aaraj博士表示:“通过重新思考视觉和语言模型的构建方式,我们正在打造更高效的多模态系统,这些系统可以部署到现实世界的各个行业。”

尽管体积小巧,Falcon Perception 在领先的基准测试中表现出色。例如,在 SaCO 物体分割基准测试中,它的表现与 Meta 的 SAM3 等领先模型相当。在处理属性判断、物体比较和密集场景提示等方面,它的性能优于竞争模型。此外,Falcon Perception也在OmniDocBench上也取得了有竞争力的结果,其性能与 Mistral-OCR、DOTS-OCR 和 Qwen-VL-235B 等更大体量的模型相当或接近。

这种效率与性能的平衡体现了更广泛的AI趋势:研究人员不再只关注增加参数数量或模型规模,而是更加重视模型架构的完善和实际应用效果。

TII人工智能与数字研究中心首席研究员哈基姆·哈西德表示:"我们开发Falcon Perception的目标是挑战视觉系统必须依赖复杂多阶段架构的普遍假设。通过证明一个单一的密集 Transformer 可以高效处理感知任务,我们为新一代可扩展的多模态系统打开了大门。"

Falcon Perception 是首个专为密集多模态感知任务而构建的模型,它将 Falcon 系列的能力扩展到语言和推理之外。作为 TII 持续致力于开放协作式人工智能开发的一部分,该模型将以开源形式发布在 Hugging Face 平台上。


免责声明:以上图文内容发表旨在传递信息,仅供分享,版权归原作者所有,如有侵权可第一时间联系我们删除,谢谢!