开源人工智能在推动技术创新、促进知识共享和降低开发成本方面具有重要作用。然而,开源人工智能的灵活定制性赋能其多元应用场景的同时,也因其快速迭代和广泛扩散能力对人工智能治理的法律政策构成了挑战,尤其是其内嵌的数据集、参数配置、权重矩阵等关键要素,使该边界不再局限于传统的开源软件代码,致使相关规则不敷适用。因此,有必要廓清开源人工智能的边界,通过软硬法兼施的手段课予层次化透明度义务,设立责任分配与豁免机制的阶梯式安排,以应对开源人工智能带来的复杂性与不确定性,为该领域的健康发展提供了灵活且有效的治理框架。
引言
人工智能二次开发在人工智能发展中极具重要性,其作为技术迭代与创新的关键驱动力,通过精细化定制与优化,不仅深化了人工智能技术在特定领域的渗透力与应用效能,还促进了跨领域融合与知识迁移,缩短新技术成果的落地周期,从而加速了人工智能生态系统的成熟与多元化发展进程。同时,二次开发对开源人工智能的深度依赖已成为业界的广泛共识与实践趋势,这一现象不仅植根于技术创新的高效性需求,更是基于资源共享、知识传递与成本效益最大化的逻辑考量。开源人工智能广泛的可访问性、高度的可定制性以及持续迭代的社区支持,为人工智能的二次开发者提供了坚实的起点与丰富的工具库。诚然,人工智能开源与闭源之争分庭抗礼,但实践中更多的技术开发人员青睐于开源人工智能,而非专有API或软件。Open Logic、OSI、Eclipse基金会共同发布的《2024年开源现状报告》载明,95%的受访者在过去一年中增加或保持了对开源软件的使用,33%的受访者表示其使用显著增加,至于减少开源软件使用的5%受访者,其主要来自早期创业公司。
然而,人工智能二次开发难以搁置开源人工智能面临的困境和风险问题。开源人工智能因其易于访问和修改的特性而带来了显著的风险放大效应,为恶意行为者提供了可乘之机,便于其发现并利用模型的安全漏洞,进行非法活动或攻击。同时,不同于传统开源代码或软件组件的单一性,开源人工智能涉及人工智能模型、参数、权重、数据等,亦将面临不同许可证间的抵牾。现有研究对于人工智能治理路径的选择群雄逐鹿,主要囿于人工智能面临的伦理风险如虚假信息、歧视、知识产权侵权、自主性丧失等,通过镜鉴欧盟确立风险防控制度、场景化风险规制等绘制人工智能治理图景,或是围绕训练数据的合理使用等核心问题和司法、金融、智能汽车、医疗等关键领域人工智能应用为人工智能这一达摩克利斯之剑觅求安全之鞘。然则,现有研究着重于研发后部署的人工智能应遵循的义务,或解决人工智能研发中的固有风险,忽视了开源人工智能的特殊性,如许可证豁免条款的有效性、开源者与二次开发者的责任分配等问题。本文试图为开源人工智能提供“制度围栏”,通过基于分类分级的信息披露义务、不同权利位阶的义务链条、迥异场景下的责任豁免例外,明确开源者与二次开发者在研发和提供不同级别和类型的人工智能时的权利义务分配,对开源人工智能实行差序治理,避免安全冗余义务,优化人工智能二次开发和开源生态。
一、人工智能开源的概念厘清
开源(Open Soure)这一概念是在20世纪80年代自由软件基金会和其创始人理查德·斯托曼(Richard Stallman)提倡的自由软件运动(Free Software Movement)基础上发展起来的,其表述最早出现在著名黑客、程序员埃里克·雷蒙德(Eric S. Raymond)于1997年撰写的《大教堂与集市》文章里。文章通过比较两种软件开发模式——“大教堂”模式和“集市”模式——来阐述开源项目的优势。在大教堂模式中,软件开发类似于建造大教堂,由少数专家在高度集中和封闭的环境中进行,而集市模式则类似于一个繁忙的开放市场,任何人都可以贡献自己的力量,开发过程公开透明。雷蒙德提倡软件源代码的开放,希冀任何人都可以查看、修改和分发,这个理念与后来正式定义的开源非常接近。来年,开放源代码促进会(Open Source Initiative,以下简称OSI)正式将“开源”作为一个标准术语推广开来,标志着社区对软件开发和分发模式的一种重新定位。这一概念逐步衍生至法律领域,在欧盟生效的人工智能法、我国《人工智能示范法2.0(专家建议稿)》、美国《人工智能基础模型透明度法案》提案等立法文件或建议稿中均提出了对开源人工智能的豁免规定。
自1998年起,OSI推动了一套被广泛认可的开源定义(Open Source Definition,OSD),明确了“开源”在软件领域的适用标准,尽管涵盖了不同严格程度的许可证。然而,将传统软件开源模式直接应用于人工智能面临挑战,特别是“神经网络权重”与软件源代码存在本质差异,部分学者和研究人员质疑“开源人工智能”一词的适用性和准确性,强调权重非可阅读、调试的代码。2023年,OSSCapital提出“开放权重”新定义以应对此问题,获行业认可,扭转了“开源人工智能”颦蹙的局面。OSI启动全球倡议,共同起草开源人工智能定义(Open Source AI Definition)根据当前拟定的草案v.0.0.9版本,开源人工智能是一种根据授予自由的条款和方式提供的人工智能系统,应当满足以下四项条件:(1)允许系统用于任何目的,无需请求许可;(2)允许他人研究系统的工作原理并检查其组件;(3)出于任何目的修改系统,包括更改其输出;(4)出于任何目的共享系统供其他人使用,无论是否修改。OSI并未从开源人工智能的定义中表明“模型参数是否需要许可证或任何其他法律文书,以及它们一旦披露和共享是否可以由任何此类文书进行法律控制”采取任何立场。
由欧盟资助的Zooom项目研究为开源人工智能的未来定义提供了三个构建块,即透明度、可实现性和可复现性。开源人工智能(Open Source AI),目前主流形式为机器学习,不仅意味着能够访问模型、权重、偏差、算法或训练和测试数据。围绕开源人工智能项目的社区应当被赋能以使用、研究、修改并分享他们的修改。开源人工智能至少应当符合以下基本标准:(1)透明度:公开训练数据集的组成详情、数据结构、架构和算法的详细信息,以及对神经网络权重的访问等。(2)可实现性:公开构建模型的足够细节,以便任何人(只要他们能够获得开发人工智能的社区所指定的必要计算资源)都能够重建该模型。(3)可复现性:开发实践应创建一条从训练数据到模型推断的独立可验证路径。
人工智能系统的开源范畴远远超越了单一的软件代码层面,而是深度交织了数据集合、参数配置、权重矩阵等关键元素。这一特性从根本上决定了人工智能开源实践无法简单地与传统的软件开源模式画等号。传统开源许可证的架构主要聚焦于源代码及二进制代码的开放许可,而未能充分覆盖到人工智能领域特有的模型架构、数据集以及训练过程等核心构件的授权与管理,且与人类可读的源代码不同,机器学习中的许多核心组件并不存在于人类可读的源代码中,从而传统开源许可证在人工智能开源的语境下显现出显著的不适应性。同时,调参(Hyperparameter Tuning)和微调(Fine-tuning)都可基于开源人工智能模型进行。特别地,调参和微调通常不会对源代码作出修改,开源模型的高度灵活性与可扩展性,也与传统开源实践中的代码修改与分发模式形成了鲜明对比。
在生成式人工智能和神经网络盛行之前,俄罗斯对“开源人工智能库”的定义为研究人工智能技术解决方案而设计的、用编程语言撰写并发布在互联网上的算法集,此时对人工智能开源的边界仍局限于算法阶段。然而以开源人工智能可实现性和可复现性视域,即使开源了人工智能的代码,没有相应的数据和算力,外部研究人员或开发者可能无法复现或验证模型的性能。这种依赖性使得“开源”在人工智能领域的定义更加复杂。在我国开源人工智能生态中,开源人工智能通常被拆分为代码、模型权重及数据等多项内容,且这些不同元素各自遵循着特定的开源许可证要求。例如,木兰-启智模型许可证定义的模型包括权重、参数(包括优化器状态)和模型结构等要素,授权涵盖了对模型以及补充材料的版权许可,以及对于模型、衍生模型(未定义)、补充材料的专利权许可,但并未阐明数据集的授权争议。而BigScienceBLOOMRAIL1.0则特别说明不授予有关数据的许可。美国国家电信和信息管理局(National Telecommunications and Information Administration,NTIA)于2024年7月发布了报告《具有广泛可用模型权重的两用基础模型》(Dual-Use Foundation Models with Widely Available Model Weights),报告中又将其称为开放式基础模型(open foundation models),即向公众开放模型权重,允许用户从互联网或通过其他机制下载。域外虽未对开源人工智能的具体开源对象和内容作出细致划分,但基于开放源代码定义(OSD)的原则以及前述对开源人工智能的认定标准与实践,本文认为,亦应将代码或算法之外的不同内容囊括其中。
此外,需高度警觉“伪开源”现象,意图扩大开源人工智能的边界,该现象表现为所谓的开源人工智能实质上仅为“有限开放”,即主要公开模型架构,而训练数据、过程等关键要素则保持隐秘。此外,通过用户身份限制、核心功能锁定、新旧版本差异化开源(旧版开源、新版闭源)等手段,进一步限制了开源的真实性与公平性。以Llama2大模型为例,其开源策略即包含了对特定规模企业用户的使用限制,凸显了“假开源”的实践。这一现象的本质,根植于法律、技术与商业三者交织的复杂背景,往往反映为企业的商业策略选择。企业意在通过扩大用户基础以强化网络效应,并借助后续配套工具与服务绑定用户,形成实际上的非开放生态。此举可能利用监管豁免,为头部企业创造寻租空间,加剧市场垄断,不利于产业竞争多元化。为应对此类限制竞争及潜在风险,已有法律框架如欧盟相关立法,开始明确界定“开源”的纯粹性与公益性,禁止以开源为名义进行商业剥削或信息不当收集。同时,鼓励通过增强透明度的方式,促进行业内的互助与合作,以法律手段与技术透明度共同推动健康、可持续的开源AI生态系统发展。
二、人工智能开源的风险
开源人工智能极大地促进了知识共享与技术迭代,但毋庸讳言,其具有不可忽视的风险,涵盖歧视性偏见、数据泄露、安全漏洞等人工智能和开源项目的共同挑战,以及因开源特性而加剧的特定风险。下文将聚焦于探讨开源人工智能所特有的桎梏与难题。
开源人工智能的普及与可访问性拓宽了应用边界,却伴生显著滥用风险。广泛可得的人工智能模型与工具,降低了非专家进入的门槛,既包括二次开发人工智能技术的门槛,亦包括利用人工智能模型设计和获取可能危害公共安全的信息并实施危害公共安全行为的门槛,纵容侵犯隐私、非法监视及网络攻击行为猖獗难抑。而开源人工智能的本质限制了控制监督,技术使用难以追踪。计算机领域的学者认为,开放模型权重特有的不加区分和不可追踪的分布,为不良参与者之间的CBRN活动创造了潜力,特别是在基础模型增加其多模态能力并成为更好的实验室助手的情况下。尽管互联网上有很多开源的信息资源,但特定于CBRN活动的、能够显著提升这些任务执行能力的模型并不普遍,目前没有专有的或广泛可用的模型能够在这些任务上提供提升,开放模型权重为此提供了“契机”。如此推演,在与CBRN相关的机密的、专有的或大量管理的数据集上训练的模型,或在多步推理中显著改进的模型,可能会带来信息合成和披露的风险。
《具有广泛可用模型权重的两用基础模型》报告称,开源人工智能公开模型权重,赋予个体和企业超出开发者原始设定的范围定制模型的能力。例如,用户可以利用新数据对模型进行微调,适应原始训练语料库未覆盖的上下文。此外,通过技术如模型量化(Quantization)、模型剪枝(Pruning)及模型融合,不涉及新数据即可实现定制。相较于从零开始训练新模型,这些定制技术所需的技术知识、资源和计算能力大幅减少。随着时间推移,预训练模型定制与全新模型训练之间的资源差距可能会进一步扩大。开放权重的可访问性极大降低了模型微调的门槛,但同时也为恶意行为者提供了机会,允许他们通过微调去除模型内的保护措施,并自由分发这些模型,这削弱了缓解措施的有效性。用户还可能通过在线咨询或API微调绕过封闭AI模型中的保护措施,实现意想不到的输出。
此外,公开发布模型权重的开发者放弃了对终端用户行为的控制和可见性。一旦模型权重被用户下载,尽管可以从如“Hugging Face”这类分发平台删除,用户仍可通过其他途径分享这些权重。例如,MistralAI公司公开发布了Mixtral 8x7b模型,这是一款双重用途的基础模型,通过BitTorrent这种去中心化的点对点文件共享协议广泛传播,专为规避单方控制设计。
再者,开源人工智能使用户可以使用自有计算资源来执行计算推理,无论是在本地机器还是通过云服务购买。这种本地化使用使得用户不用与模型开发者共享数据,这对于需要保密性和数据保护的领域(如医疗和金融)尤为重要。然而,与仅允许通过API或Web接口访问的模型相比,这也限制了监控模型使用和防止误用的能力,加剧了人工智能技术滥用风险。
在开源环境下,人工智能技术的信息公开和易获取性加剧了技术扩散与创新,可能导致潜在风险和问题的加速扩散和放大,开源人工智能的创新推动能否消弭开源带来的风险乘数效应仍有待商榷。技术漏洞、偏见、伦理问题等潜在风险能够以更快的速度、在更广泛的范围内被暴露和复制,增加了风险管理与控制的难度。当一项开源人工智能技术被广泛应用时,其潜在的负面影响可能会迅速蔓延至多个领域,造成不可预测的后果。技术的开放访问也为不具备相应伦理审查体系的使用者提供了实施潜在有害活动的工具,如无差别的监控、自动化武器和深度伪造技术等。使用者或二次开发者可能试图借助开源概念寻求法律上的豁免庇护,隐匿其违法行为,而难以追溯性使得人工智能开发者和开源社区对二次开发的追踪和监管难免存在疏漏之虞。
此外,开源环境下的知识产权保护问题也是一大挑战。尽管开源协议在一定程度上规范了代码、算法等资源的共享与使用,但在实际操作中,知识产权的界定、保护与侵权判定等问题仍然复杂且充满争议。这不仅可能挫伤创新者的积极性,还可能阻碍技术的进一步创新与发展。例如,虽然在部分许可证中明确了模型,包括权重和参数的许可,但从著作权法和专利法的视域而言,模型及其包括的权重和参数受两者保护的论证恐怕力有不逮。著作权法保护的是表达形式而非概念或想法本身。人工智能模型参数,如权重和偏置,是通过训练数据集运行特定算法后生成的结果,通常不被认为是由人直接“创作”的,因此可能不符合著作权法的保护标准。同时,这些参数更像是数据的配置或排列,而非可获得著作权保护的创作表达。模型参数通常亦不被视为可专利的发明,因为它们是由算法自动产生的,且不具备独立应用的实用性,需要嵌入特定的模型框架中才能发挥作用。然而,在人工智能系统中,模型参数等数据对于人工智能性能系枢要所在,即便用于相同的方法训练亦可能生成不同的参数,而非理想中的最优解。企业或许可以通过商业秘密途径保护其对于模型参数等数据的成果,但在开源背景下其保护与商业秘密相扞格,囿于残缺。
模型不仅限于软件代码的范畴,还包括诸如数据集、参数配置及权重矩阵等关键组成部分。因此,相较于传统的开源软件,人工智能的开源实践展现出了更为复杂的维度。现有的开源许可证主要关注于源代码和二进制代码的授权使用,对于模型参数、框架和数据等人工智能组件的许可尚未覆盖。鉴于此,除了传统开源软件所面临的法律议题之外,开源大型模型还引出了一系列独特的法律挑战。实践中,一个显著的趋势是将模型的核心组成部分——权重、代码以及数据——分别置于不同开放程度的许可证之下,以平衡创新激励与资源共享的需求。这一做法不仅体现了对知识产权的精细管理,也促进了AI技术的多元化发展。然而,这一策略也为后续开发者在集成多个开源模型时带来了更为复杂的法律考量。开发者需细致审视并理解每个模型所遵循的开源许可证条款,确保在集成过程中能够妥善处理各模型间许可证的兼容性问题。这包括但不限于验证不同许可证之间的兼容性声明、确认是否存在潜在的版权冲突,以及评估集成后产品对原许可证义务的履行情况等。例如,RAIL许可证亦针对数据、应用程序、模型、源代码设立不同的许可证。
三、人工智能开源的治理模式
因开源人工智能的风险乘数效应而盲目增强对开源者的义务,可能会抑制创新和参与度。开源的本质是促进知识共享和集体协作,如果对开源开发者的责任和义务要求过高,开发者惮于严苛的责任和潜在的法律风险而挫败积极性。职是之故,形塑多元共治的差序治理格局以应对开源人工智能的科林格里奇困境至关重要。
透明度被视为信息共享的关键因素,充分的信息公开有利于提升公众信任度,是构建可信赖人工智能体系不可或缺的要素之一。在人工智能治理中,透明性涉及算法决策的可解释性和信息传递的清晰度。法律要求人工智能系统提供透明的决策过程,与信息论中的“信息熵”概念类似,旨在降低系统的不确定性和不可预测性。开源人工智能系统因其免费和易于访问的技术、公开访问和可审查的高透明度,在部分国家或地区立法中得以一定的豁免或例外的权利,以平衡监管需求与创新自由。我国《人工智能示范法2.0(专家建议稿)》提出给予开源人工智能的税收优惠办法,并由国家人工智能主管机关针对开源人工智能研发者制订专门的规范指引,推动开源人工智能创新发展。第71条规定了开源人工智能的法律责任减免条款,在该条款中侧面反映了开源人工智能研发者的部分义务:以免费且开源的方式提供人工智能研发所需的部分代码模块,同时以清晰的方式公开说明其功能及安全风险的,不承担法律责任;此外,免费且开源提供人工智能的个人、组织能够证明已经建立符合国家标准的人工智能规范治理体系,并采取相应安全治理措施的,可以减轻或免于承担法律责任。由是观之,在我国专家意见稿中,对于开源人工智能得以豁免的透明度要求包括说明功能及安全风险,至于符合国家标准的人工智能规范治理体系尚未有明确的分野。
欧盟人工智能法中开源者的透明度义务根据其开源模型的不同等级而有所不同。不发生系统性风险的开源通用人工智能开发者免于人工智能法第53(1)条(a)和(b)项中的透明度义务。这包括免于创建和维护最新技术文档和信息的义务,这些文档和信息旨在供计划将通用人工智能模型集成到其自身人工智能系统中的下游提供者使用。其中,针对理论界和实践界聚送的数据信息披露义务,人工智能法明确用于培训、测试和验证的数据信息,包括在适用情形下数据类型和来源、整理方法(如清洗、过滤等)、数据点的数量、范围和主要特征;数据的获取和选择方式,以及在可适用的情形下,检测数据源不适合性的所有其他措施和检测可识别偏见的方法。符合例外情形的通用人工智能模型的开源开发者不用对数据信息做详细清单摘要。免费和开源许可下向公众提供工具、服务、流程或组件的非通用人工智能模型研发者同样豁免于第25条人工智能价值链上的责任,即便是高风险人工智能系统亦可免于通过书面协议,根据公认的技术水平,具体说明必要的信息、能力、技术访问和其他援助,但高风险开源人工智能应公开用于通用人工智能模型训练的内容的足够详细的摘要。同时,该法第13条规定,高风险人工智能系统的设计和开发应“确保其操作足够透明,以便部署者能够解释系统的输出结果并加以适当使用”。此外,对于与自然人直接互动的人工智能系统有特定的透明度要求,如人工智能生成内容标注等。因此类形式透明度义务并不与开源人工智能风险直接关联,其非聚焦于研发过程而是后续提供者义务,本文因篇幅问题不再赘述。与欧盟大相径庭的是,美国于2024年7月11日公布了新的提案《内容来源保护和防止编辑和深度伪造媒体完整性法案》(Content Origin Protection and Integrity from Edited and Deepfaked Media Act,以下简称COPIED法案),该提案对透明度义务的规定采用软法规制,要求版权局等有关部门制定自愿性指南。
透明度和信息来源的披露义务对缓解人工智能数据训练“黑箱”现象引发的维权诘难大有裨益,但美国COPIED法案和欧盟人工智能法的迥异折射出两国在监管比例性和适度性上的政策性调配,质言之,应全面评估该义务对行业带来的成本与效益,不可轻视透明度义务对开源人工智能提供者课予的额外负担和成本。事实上,开源人工智能因其开源特性,本身已具有高度透明性。人工智能的三个重要组成部分,算力、算法和数据,在开源人工智能范畴因算法本身公开,而算力关涉使用者或二次开发者的硬件措施,往往不存在开源者的透明度问题,故而透明度争议的集中于数据。训练数据作为人工智能的基础要素,在二次开发过程中基于已训练模型时,开源模型的数据样态如具有传染性般持续扩散,影响深远而广泛。因而,综合成本收益分析,有必要设立分层次的透明度义务,将训练数据的公开披露义务作为基础透明度义务,而对于技术文档的持续更新与追踪、风险提醒和处理方式等披露要求则基于许可证规范以及分类分级人工智能治理规则设为自愿性义务。
我国现在立法并未明确对开源人工智能研发者和二次开发者义务作出法律规定,但或将结合开源项目或开源软件的有关立法或司法实践瞥见一隅。通常情况下,开源软件的权利人在发布该软件时,会根据具体需要选取适当的开源许可证,并要求使用者遵循许可证所规定的条款来进行软件的复制、修改和分发,例如,GPLv2和GPLv3等开源许可证规定了二次开发者的权利边界,并要求开发者在使用这些开源软件时必须遵循相应的协议条款。Free Software Foundation诉Cisco System,Inc.案涉及开源许可协议的具体执行和遵守。Cisco公司在其Linksys品牌路由器的内置软件中使用了受GPL(General Public License)和LGPL(Lesser General Public License)保护的开源代码,却未遵守相关开源许可证的要求,即公开其使用的源代码。这一行为违反了GPL和LGPL许可证的核心条款,引发了Free Software Foundation(FSF)的诉讼。最终,该案以双方和解告终,Cisco同意支付和解费用并公开源代码。在我国亦有类似的案例,济宁市罗某网络科技有限公司与广州市玩某网络科技有限公司等侵害计算机软件著作权纠纷案中,广州知识产权法院认为“开源许可协议已经成为国际行业内公认的有效契约文本,遵守协议文本规定也是信守诚实信用原则的体现。只有各方均信守开源授权许可协议中的条款,才能让软件源代码持续开源传播下去,繁荣软件市场,保证公众能享受到开源软件带来的成果。”以此来看,人工智能研发者在进行开源模型的研发时,亦有遵循开源协议的义务,通常需披露原开源许可证的副本,而不同的开源协议具有不同的权利边界和义务。若开源模型使用了GPL类的强传染性许可证,可能依据协议要求提供修改或衍生的软件的完整源代码。对于更宽松的许可证,如MIT、Apache等,一般无强制提供源代码的义务,除非涉及对源代码的实质性修改。
然而,开源人工智能的特殊性在于,其许可证的内容更为繁杂,在人工智能立法尚未明晰之时,轻易移植开源项目的有关判决欠缺合理性,需根据个人信息和隐私权、知识产权和数据权益以及非歧视等基本权利的不同权利位阶分配开源模型(或者其他人工智能开源组件)在二次开发后因开源模型存在安全风险或其他侵权风险产生危害时,不同主体的责任承担。
实践中,适用于人工智能开源模型的RAIL系列许可证发布。以2023年发布的AI PUBS RAIL LICENSES为例,其开放的负责任的人工智能许可证AI Pubs Open RAIL中适用于模型的AIPubs Open RAIL-M许可证第10条规定,在任何法律理论下,无论是侵权(包括疏忽)、合同还是其他,任何贡献者均不对模型使用者的损害承担责任的责任限制声明。概言之,开源模型若遵循法律所规定的透明度义务等相关规定,不用为后续开发承担责任,即便开源模型本身存在研发者研发时未察觉的风险或漏洞。《网络安全弹性法案》(Cyber Resilience Act)对没有适当注意安全、没有及时消除整个生命周期中的漏洞的软件制造商施加了一定的义务,这或将进一步推断二次开发者对于开源模型具有一定的安全审查和评估义务。
针对个人信息,首先从技术手段上看是否可以剥离责任,即举证判断由开源模型导致还是二次开发者导致,责任约定豁免条款不直接生效;如果是二次开发增加了新训练数据导致,则开源人工智能提供者不用承担责任,若是开源人工智能训练数据导致风险的实际发生,亦应当研析二次开发者有更高的义务避免输出个人信息。依据个人信息保护法第69条之规定,当个人信息处理活动导致侵权责任产生时,法律适用过错推定归责原则。在此框架下,充分履行信息披露义务被确立为判定过错与否的一项重要考量因素。具体而言,若模型运算结果不慎泄露了个人信息,且开源人工智能提供者能够充分展示其已遵循信息披露要求,并对算法逻辑提供合理且详尽的解释,则应推定其在导致损害后果方面不存在过错。此外,当开源模型自身涉及知识产权侵权时,二次开发者或可利用合法来源抗辩免于责任承担。从技术视角来看,针对开源人工智能的开发和使用,鼓励建立一套完善的反馈机制,使得任何对模型的改动都能够被追踪和审查。具体来说,可以引入强制的版本管理和审计制度,确保模型的每一次修改和更新都经过审查,从而防止系统的失控。
类似地,在著作权法领域,著作权法第59条针对作品复制权的侵犯情形,为非直接实施复制行为的主体设定了“合法授权”与“合法来源”的免责条款。据此,开源人工智能提供者在利用第三方提供的数据时,若数据中包含受著作权保护的作品,其可援引“数据来源合法”作为抗辩理由,以规避责任承担。而有效履行信息披露义务,则构成初步证明数据来源合法性的有力证据。
此外,本文认为当被许可者二次开发的人工智能被开源者发现存在问题时,将因其许可协议中的限制性条款而享有诉权;若许可证中无限制性条款规制二次开发者行为时,开源人工智能提供者有权以规避自身风险,防止未来担任共同被告承担责任为由而享有诉权。
从实体法与程序法的双重维度出发,对开发者权益进行周全考量与合理安排,旨在通过法律机制缓解其可能面临的经济不利局面。然而,值得注意的是,信息披露行为本身亦受到禁反言原则的制约,即合法推定的效力仅建立在披露内容符合诚实信用原则的基础之上。若模型开发者就预训练数据的相关信息陈述前后矛盾,且无法合理解释此种变化之正当性,则合法假定将被推翻,进而可能使其面临不利的法律后果。至于针对具体的责任承担形式和救济形式,人工智能治理以“meta regulation”的立法形态昭示着避免对个人信息、著作权法等部门法规则做过多干预,转而以风险预防形式演示义务链条。
欧盟人工智能法设置了开源豁免条款,然则肇因于平衡技术创新与公共利益保护、确保技术应用的透明度与责任追究机制的有效性,人工智能法与产品责任指令设置了豁免的例外情形。人工智能法与我国《人工智能示范法2.0(专家建议稿)》均要求开源人工智能免费,产品责任指令则将商业活动中的人工智能视为开源豁免的例外。此外,欧盟人工智能法将通用人工智能模型分为(不发生系统性风险的)通用人工智能模型和具有系统性风险的GPAI模型,其中具有系统性风险的开源人工智能模型不能获得责任豁免。然而,针对“免费”“商业活动”的认定,实践中往往具有模糊性,应当警惕以免费或公益为噱头但隐藏限制条件的开源组件;在人工智能系统涉及多个开源许可证时,单个组件的付费许可是否影响其他组件免费许可的豁免仍然有待商榷,尤其是当风险和责任难以拆分时。因而,结合具体场景对开源人工智能豁免例外作出规制具有重要意义,以有效缓解数字利维坦的加剧。场景蕴含与特定空间或行为相关的环境特征,以及在此环境中人的行为模式及互动模式。在该解释下,前例以免费名义通过浏览定向广告等代偿的开源人工智能将失去豁免权。
部分学者可能表达了对人工智能法中特定条款的顾虑,该条款豁免了“专为科学研究与开发目的设计并部署”的人工智能系统受其法律框架的约束。此豁免条款被视为可能滋生一种潜在情境,即基于开源许可协议、原本旨在科学研究目的的人工智能模型,在后续阶段有可能被转用于商业领域,而这一过程在某种程度上绕过了法律的直接监管。简言之,这一条款的设定可能允许以科学研究为初衷的人工智能模型规避欧盟旨在保障安全、预防人工智能潜在危害所制定的必要法规体系。但本文认为,人工智能系统不同于人工智能模型,根据欧盟法律规定的表述,是对于基于免费、开放的人工智能系统的豁免,若以科学为目的的人工智能模型后续商业使用,并不应当适用于该条款,此时二次开发后的人工智能系统并非满足豁免的条件。
结语
开源人工智能的兴起预示着一个前所未有的时代,降低的技术门槛推动多元主体共同塑造其未来走向。因而构建一个既促进创新又确保公平、安全与可持续发展的开源生态,避免可信人工智能构建成为“空中楼阁”,已成为时代赋予的重大课题。差序治理模式在此背景下提出了分类分级管理的框架,不同主体在权利与义务的分层结构中,依托不同场景共同参与治理。这一模式通过信息披露、责任豁免与权责链条的动态构建,逐步形成了兼具灵活性与规制力的开放式治理体系,有效应对了传统治理模式无法覆盖的灰色地带与复杂场景,为人工智能开源的健康、有序发展提供了有力支撑。未来,人工智能开源的治理体系或将进一步加强跨领域的协同创新,探索更加精细化、场景化的监管机制。在保障技术开放性与创新活力的同时,还需深化对风险的系统性治理,以确保人工智能技术在开放环境中的发展更加透明、可控,进而实现技术进步与社会利益的平衡。
往期精彩回顾
上海市法学会官网
http://www.sls.org.cn