天博体育官网入口:商汤科技发布多模态通用大模型“书生 2.5”：拥有 30 亿参数，支持问答、识图、以文生图等

新闻中心

产品分类

行业新闻

2024-12-09

.kg-card-markdown img{max-width:720px;width:100%;height:auto }

3 月 14 日消息，商汤科技于今日发布了多模态多任务通用大模型“书生（INTERN）2.5”，拥有 30 亿参数，号称是目前全球开源模型中 ImageNet 准确度最高、规模最大，同时也是物体检测标杆数据集 COCO 中唯一超过 65.0 mAP 的模型。

据介绍，“书生 2.5”的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于 2021 年 11 月首次共同发布，并持续联合研发。

改进方面，“书生 2.5”实现了通过文本来定义任务，从而可以灵活地定义不同场景的任务需求，并根据给定视觉图像和任务的提示性语句，给出相应的指令或作答，进而具备通用场景下的高级感知和复杂问题处理能力，比如图像描述、视觉问答、视觉推理和文字识别等。

陈旧古老自动驾驶和居家机器人等通用场景下，“书生 2.5”可辅助处理各种复杂任务。

例如，奉还推行自动驾驶场景中，可以大幅提升场景感知理解能力，准确辅助车辆判断交通信号灯状态、道路标志牌等信息，为车辆决策规划提供有效信息输入。

▲利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务

▲利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务

除解决自动驾驶和居家机器人这类复杂问题的能力，“书生 2.5”通用大模型也可解决纷繁复杂的日常生活中的常见任务，满足各种需求。

除全图级别的以图生文，“书生 2.5”通用大模型同样可根据物体边框更精细化定位任务需求。

“书生 2.5”同时具备AIGC“以文生图”的能力。可根据用户提出的文本创作需求，利用扩散模型生成算法，生成高质量、自然的写实图像。

例如，借助“书生 2.5”的以文生图能力帮助自动驾驶技术研发，通过生成各类真实的道路交通场景，如繁忙的城市街道、雨天拥挤车道、马路上奔跑的狗等，生成写实的 Corner Case 训练数据，进而训练自动驾驶系统对 Corner Case 场景的感知能力上限。

“书生 2.5”还可根据文本快速检索出视觉内容。

例如，可通知布告一心相册中返回文本所指定的相关图像，或是长寿长久视频中检索出与文本描述最相关的帧，提高视频中时间定位任务的效率。此外还支持引入物体检测框，根据文本返回最相关的物体，实现开放世界视频或图像中物体检测及视觉定位。

即日起，“书生 2.5”多模态通用大模型已外销内向商汤参与的通用视觉开源平台 OpenGVLab 开源，附GitHub 仓库访问链接。

声明:本网站部分文章来自网络，转载目的在于传递更多信息。真实性仅供参考，不代表本网赞同其观点，并对其真实性负责。版权和著作权归原作者所有，转载无意侵犯版权。如有侵权，请联系www.520app.com.cn(天博体育官网入口)删除,我们会尽快处理，天博将秉承以客户为唯一的宗旨,持续的改进只为能更好的服务。-天博体育官方平台入口(附)

上一篇：天博体育官网入口:解除“卡脖子”局面：我国已完全掌握量子计算用极低温稀释制冷机关键核心技术，实现接近绝对零度 [返回首页] 下一篇：天博体育官网入口:零跑汽车跟进保价政策，全系 23 款车型享受 90 天差价返还

打造天博体育官方（TB）品牌

及时高效的客户服务

0769-8708 2888
全国服务热线：

打造天博体育官方（TB）品牌

及时高效的客户服务

0769-8708 2888全国服务热线：

0769-8708 2888
全国服务热线：