我的位置: 上观号 > 上海科协 > 文章详情

AI模型研发,能否使用网络公开图片和数据?| 柯律师

转自:上海科协 2025-08-29 14:19:19

柯律师:

您好!
我们是一家专注于多模态人工智能模型研发的初创企业,在训练过程中使用了大量从网络收集的图像、文本数据。请问,这些数据是否受到知识产权保护?我们能否使用这些公开数据用于训练模型?

范先生

//
杨先生:

范先生

您好,来信收悉。就您所询问的问题,回复如下:

首先,根据《著作权法》第三条规定及相关司法解释,图像、文章、视频等具备独创性的内容一般构成作品,享有著作权保护。未经许可直接下载用于商业目的,可能构成侵权,即使这些作品已公开发表或可通过网络检索获取,亦不得随意使用。

其次,即便某些数据集状态为“开放获取”,也应认真查阅其许可条款。目前学术界与业界常用的数据集,如COCO、ImageNet、Common Crawl等,大多设有明确的使用许可条款。例如,部分数据集仅限用于非商业的研究目的,不得在商业产品中使用;若擅自用于模型训练、产品开发等商业活动,存在法律风险。

最后,建议企业在数据使用上遵循最小化、合法化、有痕化的原则:一是优先使用来源合法、版权清晰、具备明确许可协议的数据集;二是建立数据溯源与管理制度,杜绝随意爬取无授权平台内容;三是保留模型训练参数、数据版本、来源记录,防止在后期产品开发中无法还原原始数据路径。

AI模型的开发应建立在合法合规的数据基础之上,网络公开不等于自由使用,数据版权状态需逐一核查,建议贵司建立数据合规管理制度,结合开源许可、个人信息保护与输出内容控制,确保全链条合法合规运行。

北京大成(上海)律师事务所律师

刘峰

柯律师信箱:

kelvshi2022@126.com

扬法律服务之帆

护科创奋楫之航