国际顶尖的视觉AI平台向全球开源，上海和香港机构联合研发

我的位置：科教 > 创新之城 > 文章详情

分享至：

(2)

(0)

来源：上观新闻作者：俞陶然 2022-02-25 19:07

摘要：OpenGVLab开源平台已正式上线，供研究人员访问和使用。

上海人工智能实验室今天联合商汤科技、香港中文大学、上海交通大学发布了通用视觉开源平台OpenGVLab，面向学术界和产业界开放其超高效预训练模型，以及千万级精标注、十万级标签量的公开数据集，为全球开发者提升各类视觉任务的模型训练提供重要支持。

OpenGVLab开源平台（opengvlab.shlab.org.cn）已正式上线，供研究人员访问和使用，后续将开通在线推理功能，供所有对人工智能视觉技术感兴趣的人士体验。上海人工智能实验室负责人表示：“希望通过发布这个开源平台，帮助业界更好地探索和应用通用视觉AI技术，促进体系化解决AI发展中数据、泛化、认知和安全等诸多瓶颈问题，为推动人工智能学术和产业发展做出贡献。”

目前，很多人工智能模型只能完成单一任务，比如识别单一物体，或识别风格较为统一的照片。如果要对多种类型和风格进行识别，就需要具备足够的通用性和泛化能力。打麻将、竞速摩托、香槟、熊猫……这些图片，人一眼就能识别，但人工智能系统不一定可以。针对这个痛点，上海人工智能实验室去年11月联合商汤科技、香港中文大学、上海交通大学发布了通用视觉技术体系“书生”。对于不同类型的图片，它都能较为准确地识别出图中内容。

通用视觉开源平台OpenGVLab正是基于“书生”打造，能帮助开发者显著降低通用视觉模型的开发门槛，用更低成本快速开发用于成百上千种视觉任务和视觉场景的算法模型，高效覆盖长尾场景，推动人工智能技术的规模化应用。

这个开源平台充分继承了“书生”的技术优势，其开源的预训练模型具有很高性能。相较于此前业界公认的最强开源模型——OpenAI公司2021年发布的CLIP，OpenGVLab的模型可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务，在准确率和数据使用效率上均有大幅提升。

基于同样的下游场景数据，开源模型在分类、目标检测、语义分割和深度估计四大任务的26个数据集上，平均错误率分别降低了40.2%、47.3%、34.8%和9.4%；在分类、检测、分割和深度估计中，仅用10%的下游训练数据就超过了现有其他开源模型。使用这个模型，研究人员可以大幅降低下游数据采集成本，用极低的数据量即可快速满足多场景、多任务的人工智能模型训练。

以百亿数据总量为基础，上海人工智能实验室构建了超大量级的精标注数据集，近期将启动数据开源工作。超大量级的精标注数据集不仅整合了现有的开源数据集，还通过大规模数据图像标注任务，实现了对图像分类、目标检测和图像分割等任务的覆盖，数据总量级近7000万。开源范围涵盖千万级精标注数据集和十万级标签体系。目前，图像分类任务数据集已率先开源，后续将开源目标检测任务等更多数据集。

此次开源的超大标签体系不仅几乎覆盖了所有现有开源数据集，而且在此基础上扩充了大量细粒度标签，涵盖各类图像中的属性和状态，极大丰富了图像任务的应用场景，显著降低下游数据的采集成本。研究人员还可以通过自动化工具添加更多标签，对数据标签体系进行持续扩展和延伸，不断提高标签体系的细粒度，共同促进开源生态繁荣发展。

栏目主编：黄海华

上一篇： 没有了

下一篇： 没有了

我也说两句

发表

用户名：
密码：
验证码：	看不清

	忘记密码？