12月11日,证券时报记者从华中科技大学获悉,该校软件学院教授白翔领衔的VLRLab团队近日发布了多模态大模型――“Monkey”(意为“猴子”)。该模型能够实现对世界的“观察”,对图片进行精确描述。
多模态大模型是一种可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构,近年来在众多场景中展现了惊人的能力。
VLRLab团队接受证券时报记者采访时表示,Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型。Monkey的另一个显著特点是其出色的“看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。
目前,几乎所有多模态大模型都需要运用网上爬取的图文对数据集,这些数据集只能进行简单的图文描述,无法大分辨率图片的需求。据VLRLab团队介绍,Monkey利用现有工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具的特性,大幅度提升描述的准确性和丰富程度。
VLRLab团队表示,Monkey的另一亮点是能够处理分辨率高达1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。
目前,业内能处理的图片最大分辨率为448×448像素。而想要进一步提升处理能力,需投入十分高昂的算力成本。该团队成员刘禹良向记者介绍,团队采用 “裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备了一个“放大镜”,放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,就能提取更多局部特征。
从市场表现来看,上周开始,多模态大模型等AI概念再度活跃,多家上市公司发布机构调研。天风证券研报指出,随着ChatGPT升级迭代并具备了多模态能力,以及Gemini展现的原生多模态能力,AI大模型浪潮已进入新阶段,从大语言模型过渡到多模态模型。