我的位置：上观号 > 上海科协 > 文章详情

AI模型研发，能否使用网络公开图片和数据？| 柯律师

转自：上海科协 2025-08-29 14:19:19

柯律师：

您好！

我们是一家专注于多模态人工智能模型研发的初创企业，在训练过程中使用了大量从网络收集的图像、文本数据。请问，这些数据是否受到知识产权保护？我们能否使用这些公开数据用于训练模型？

范先生

杨先生：

范先生：

您好，来信收悉。就您所询问的问题，回复如下：

首先，根据《著作权法》第三条规定及相关司法解释，图像、文章、视频等具备独创性的内容一般构成作品，享有著作权保护。未经许可直接下载用于商业目的，可能构成侵权，即使这些作品已公开发表或可通过网络检索获取，亦不得随意使用。

其次，即便某些数据集状态为“开放获取”，也应认真查阅其许可条款。目前学术界与业界常用的数据集，如COCO、ImageNet、Common Crawl等，大多设有明确的使用许可条款。例如，部分数据集仅限用于非商业的研究目的，不得在商业产品中使用；若擅自用于模型训练、产品开发等商业活动，存在法律风险。

最后，建议企业在数据使用上遵循最小化、合法化、有痕化的原则：一是优先使用来源合法、版权清晰、具备明确许可协议的数据集；二是建立数据溯源与管理制度，杜绝随意爬取无授权平台内容；三是保留模型训练参数、数据版本、来源记录，防止在后期产品开发中无法还原原始数据路径。

AI模型的开发应建立在合法合规的数据基础之上，网络公开不等于自由使用，数据版权状态需逐一核查，建议贵司建立数据合规管理制度，结合开源许可、个人信息保护与输出内容控制，确保全链条合法合规运行。

北京大成（上海）律师事务所律师

刘峰

柯律师信箱：

kelvshi2022@126.com

扬法律服务之帆

护科创奋楫之航