我的位置: 上观号 > 上海市法学会 > 文章详情

岳林|论世界模型的隐私机制及其法律规制

转自:上海市法学会 2026-01-29 08:07:40

所谓世界模型,是指能够对物理世界和人类社会进行模拟和理解的人工智能技术图景。Sora、V-JEPA和Genie等新兴人工智能技术,皆以世界模型作为它们的技术原理和发展方向。本文试图从世界模型的整体发展趋势出发,研究其技术机制将如何影响人类社会的隐私机制,进而探讨隐私权以及相关法律制度可能给予的回应。目前人工智能领域存在两种主流世界模型路径,可分别把它们概括为“模拟式世界模型”和“理解式世界模型”。进而指出,世界模型的技术机制可以类比理解为人类社会的四种隐私机制,即:对世界现象的还原,对因果关系的探究,对世界现象的虚构,对社会人格的伪装。并预测随着世界模型的技术发展以及相应社会变迁,现有隐私权制度将进一步被弱化,而个人信息法和数据法将承担起更主要的隐私法律规制功能。因此提出以下建议:国家应该加强对个人信息的行政规制,即在公法层面细化个人信息的类型和行为规范;针对世界模型应用的具体场景和媒介,立法者和监管者应当提供差异化的行为规范和主体责任模式;法律应该针对世界模型隐私问题建立“多方参与治理模式”,鼓励所有社会主体积极参与技术和法律的互动过程。

引言
法律人正以前所未有的热情追逐技术热点。一场新的“变法运动”似乎已经兴起。为了回应技术冲击,促进技术进步,法学界开始积极变革自己的概念范畴、研究方法、理论基础乃至学科体系。从中央到地方,政策和法律法规也在不断推陈出新,希冀为技术进步和产业发展构建适宜的制度环境。
但质疑也随之而来,首先,就技术应用现状而言,究竟出现了哪些新型法律问题,是已有法学理论和法律制度无法解决的?其次,近年来热闹非凡的学术生产、规范更迭和案例创新,究竟在什么意义上推动了技术进步和产业发展?最后,如果法律人只是被动回应技术冲击,缺乏对技术及其所属的社会系统的整体理解,那岂不成了没有自主性的尾随者,只配在技术的局部、枝节和琐碎问题上,盲目敲打着乏味的法律螺丝钉?
上述问题足以令人警醒,但技术发展之迅捷,似乎不容法律人仔细反思。仅在2024年2月中下旬,美国科技公司OpenAI、Meta和DeepMind就相继推出了视频人工智能Sora、V-JEPA和Genie,随即在全球舆论场和行业圈引发热议。嗅觉灵敏的法律人都清楚,新的技术热点又来了!但问题是,这些产品要么仍处于测试阶段,要么尚未被大规模应用,其商业模式和应用生态都不确定,所以法律人如何预测,它们会带来哪些新型法律问题?就算它们构成革命性的技术创新,法律人又如何判定,现有法律工具箱就要捉襟见肘了?这些产品当然是在美国法律制度环境中孵化出来的,但能否说,技术进步必然需要法律进步?一个可资借鉴的例子是,欧盟在人工智能技术上落后于美国,但它对人工智能法律制度的热忱却让美国望尘莫及。在欧盟《人工智能法案》即将出台之际,有美国人禁不住嘲讽,“我们衷心祝贺欧盟在立法上遥遥领先,在技术创新上继续平庸”。面对美国同行的压迫性优势,我国人工智能专家倒是指出,美国企业选择的技术路径并非唯一发展路径,我们没有必要一味因循追赶,倒是可以试试另辟蹊径。基于类似道理,法律人不应该只关心Sora、V-JEPA和Genie这些具体产品(它们可能会很快过时),而应该把握技术背后的理论原型和多重路径,进而观察和思考法律制度可能受到的冲击。
基于以上考虑,试图研究作为人工智能技术理念的世界模型(world models)将如何影响社会的隐私机制,以及隐私权和相关法律制度会作出怎样的回应。
本文选题的具体理由在于:其一,Sora、V-JEPA和Genie只是技术发展进程中的短暂节点,世界模型则是它们共同追求的理论图景。目前关于人工智能的法学研究,大都针对具体产品和具体场景(这很有必要),只需触及人工智能技术的表面或者局部。但世界模型具有整体性和综合性,是多模态(能够生成文字、语音、图像、视频等内容)、多功能(像人一样能够完成多种工作)和多场景(能部署在各个社会领域以及空间场所)的。其二,隐私问题贯穿于人工智能研发、运营和使用的全过程,可以帮助我们管中窥豹,更为全面地探究技术与法律的互动关系。目前法学研究的主流倾向,仍然是从传统隐私观念和理论出发,探讨如何保障个人隐私不受新技术侵犯。而本文的侧重点,则是世界模型将如何改造人类社会的隐私关系(本文将在社会学意义上称之为“隐私机制”),进而如何影响隐私权和相关法律制度。
本文第一部分是对世界模型概念的梳理;第二部分借用社会学的“结构”和“机制”方法,来探讨世界模型如何应用于人类社会;第三部分介绍世界模型的应用形式和媒介,以及它的技术机制是如何转化成为人类社会的隐私机制的;第四部分,阐释为何现有隐私权制度在很大程度上被悬置,不能有效直接回应世界模型的隐私挑战;最后的第五部分,讨论个人信息法和数据法如何应对世界模型带来的隐私问题。
一、何为世界模型
Sora、V-JEPA和Genie都不是从石头里蹦出来的。自AlphaGo在2016年掀起浪潮以来,人工智能的技术主旋律就一直没有离开神经网络和机器学习。目前流行的大语言模型(large language models,LLMs)和大视觉模型(large vision models,LVMs),都以谷歌团队于2017年提出的Transformer模型为基础架构,Sora和Genie亦是如此。V-JEPA同为机器学习的子嗣,却另辟蹊径,拒绝了Transformer模型。但在世界模型理念上,V-JEPA负责人杨立昆(Yann LeCun)和Genie负责人罗克塔舍尔(Tim Rocktäschel)反而站在同一阵营,对Sora提出了猛烈批评。接下来,本文将分别从Sora和V-JEPA的立场来介绍对世界模型的两种不同理解。

(一)
对物理世界的“模拟”

Sora技术报告的标题,就是“作为世界模拟器(world simulators)的视频生成模型”。“模拟”云云,恰好是关于世界模型的第一种主流定义。该报告引用了一篇名为《世界模型》的论文,作者把世界模型比作人脑。人脑虽不能完整捕捉世界图景,但可以通过思维和概念系统来表现(represent)和预测(predict)现实世界。所以,Sora生成出视频,就相当于人们在脑海里想象世界。技术报告所谓的物理世界(physical world),其实不限于自然界,也包括人类社会,而本文也将沿用这一表述。OpenAI的自信,来自Sora呈现的视觉效果:
其一,对物理现象的精确描绘。在Sora样片中,出现了动态的人类、动物、海浪、河流和落樱。稍不仔细查看,我们就会把样片误作真实场景。视觉作品能够产生真实感,是因为符合人类通过肉眼对世界的感知。光影、色彩、轮廓和纹理,历来是计算机模拟世界的难点。而且像素越高,视频也就越逼真。在Sora提供的单帧画面中,人脸上的褶皱、暗斑、体毛和眼球虹膜都清晰可见。
其二,对空间环境的完整构建。自人类在岩壁上作画以来,图像就是对世界的模拟。受技巧和工具限制,绘画只能表达出局部世界,画框之外的内容需要观看者来“脑补”。现代影视屏幕也有边界。而且,影视器材必然会侵入被拍摄画面所在的空间,无法凭空消失。但计算机生成视频是对人类拍摄过程的模拟,画面所在空间根本不存在实体镜头。在虚拟的三维空间中,观看者有可能像幽灵一样自由漂浮、任意观看。Sora优于其他模型之处,在于它模拟的空间更完整也更合理。譬如Sora就能较好做到,事物和场景在不同镜头视角下保持形态一致;当物体被遮挡或者离开画面时,Sora也能确保它们依然存在(persist)于模型之中。所以,Sora创造的每一个视频都貌似一个完整的世界。
其三,对时间秩序的连贯表达。视频就是连续性图像。Sora不仅要确保单帧画面的真实,还要确保画面联动之后,画中物体的运动形态不会违反自然规律。Sora令人赞叹的表现之一,就是汉堡包被咬一口后留下的痕迹。另外,视频本身也是一个表达过程。作者(人或人工智能)必须决定,哪些物体入镜,以何种形式入镜,镜头持续多久,镜头如何切换,人物情绪如何……影视作品可以采用闪回、闪进和逆时间等蒙太奇手法来叙事。视频整体叙事的时间秩序,不一定要等同于具体场景的时间秩序。Sora样片都很短暂,也没有复杂镜头语言,但其连贯表达却能给我们带来“电影感”。
Sora的技术原理有几点值得我们注意。首先,Sora把作为训练素材的原始视频压缩和拆解成“视觉补丁”(visual patches),相当于大语言模型的最小数据单位“令牌”(token)。其次,Sora把视觉补丁压缩到虚拟的“潜在空间”(latent space)进行训练,学习和预测视觉补丁之间的时空关联。最后,Sora是多模态(multimodel)模型,用户可通过文字、图片和视频给予提示(prompt)来生成视频。这意味着Sora并不直接观察物理世界,也不以物理现象或物理元素作为计算基础。Sora模拟的直接对象其实是人类提供的内容或符号,即文字、图片和视频。概言之,Sora不是对世界的直接表现。
OpenAI承认Sora的视觉效果并不完美,其样片中保留着许多违背物理规律的情形。但即便如此,仍有人工智能专家承认Sora是有限意义上的世界模型。退一步说,人类对世界的认知也未必是“直接”的,而可能要以种种思维、心理和符号机制作为中介;人类观察到的世界现象也未必是“客观真相”,而可能是各种工具、技术以及社会机制综合塑造的结果。

(二)
对物理世界的“理解”

在Sora发布之前,人工智能学界就关于世界模型有过激烈争论。争论焦点在于大语言模型能否构成世界模型。支持者一般认为,大语言模型至少具备这种潜力。反对者则认为,大语言模型具有“先天不足”,虽然它能准确预测人类语言中的词语顺序,但就像随机鹦鹉(stochastic parrots)一样不能真正理解语法结构和语言含义,进而不能真正理解语言所表达的世界规律和社会现象。这也涉及另一个人工智能核心问题,即大语言模型能否成为通用人工智能(artificial general intelligence,AGI)。通用人工智能的特征之一,就是能够像人类一样完成多项任务,甚至在能力上超越人类。似乎,世界模型是通往通用人工智能的必经之路。
法国人工智能科学家杨立昆是当代机器学习理论的奠基人之一。他认为,生成式人工智能根本做不到“理解”物理世界,且会消耗大量资源来生成无意义的视频延续(continuations)。但杨立昆“凑巧”是Meta的首席人工智能专家,而Meta也“凑巧”在OpenAI发布Sora的同一天,发布了自己的非生成式(non-generative)视频模型 V-JEPA。随后杨立昆团队发表了一篇名为《在视觉表现学习中学习和利用世界模型》的论文,介绍了与Sora大相径庭的技术思路。简而言之,虽然V-JEPA也输入和输出视频,但该模型的技术核心是训练“图像世界模型”(image world models,IWM),由它来实现对世界的理解。或可以这样表述:如果V-JEPA学习的是世界内在规律,那么Sora学习的是外在表象;如果V-JEPA描绘的是世界的“影子”,那么Sora描绘的是“影子的影子”。
杨立昆心中的世界模型是这样的:“如果想要机器对结果进行正确预测,它必须有一个世界模型,这个模型不仅要包含大量有关人类文化风俗习惯的信息,还需要具备直观的物理学知识……”这里夹带着一个认知科学假定:人类通过“直观物理引擎”(intuitive physics engine,IPE)这一心理机制来模拟世界。杨立昆认为,人工智能虽不具有人类的生理禀赋,但可以去仿效,也即世界模型就应当像人一样理解世界现象背后的因果关系。而Sora、生成式人工智能以及大语言模型的技术路径,则只是在抽象层面处理数据间的相关性或概率关联,不可能像人一样思考因果关系。另外,因为它们与物理世界是隔绝的,所以也不能采用干预(intervene)或者反事实(counterfactual)等方式来研究和学习物理世界的因果关系。
如果说Sora代表的是“模拟式世界模型”,那么杨立昆提倡的版本则是“理解式世界模型”。

(三)
法律人的世界模型

世界模型是一个可以无限泛化的概念。动物、人和机器都可以有世界模型。人们在哲学沉思、科学研究和艺术创作时也都可以提出世界模型。但本文讨论的世界模型仅限于人工智能模型,且特指有能力模拟和理解世界的人工智能模型。Sora和V-JEPA分别代表两种不同的技术路径和哲学理念,而它们都可以被视为世界模型的雏形。
普通人一般只关注Sora和V-JEPA的视觉效果,而不关心它们的世界模型技术理念分歧。但这些分歧值得法律人留意。因为在许多法律问题的判断上,我们都需要了解人工智能的素材来源、运行机制和表现形式。例如,在著作权法上,法官就需要进入技术层面来判断究竟是谁在创作,创作的是什么,以及何为原创作品、抄袭作品或者戏仿作品。而在隐私法律问题上,我们也需要先了解技术,再去判断人工智能是否涉及隐私,涉及何种隐私权,产生哪些社会后果……
二、对世界模型的法律想象
毫无疑问,投资(机)者们正在绞尽脑汁,想象世界模型将会带来怎样的应用场景、产品生态和商业模式。法律人当然也需要想象技术。这一是未雨绸缪,为新型法律问题做好预案;二是思想实验(thought experiment),对过去和当下的法学理论、法律制度以及法律工具进行检验。法律人如何想象技术,将直接影响到他们如何在实践中应对技术。如果法律人的技术想象是陈旧的,那么必然会陷入刻舟求剑式的窘境。但法律人的技术想象也不能过于放任,陷入无稽幻想。
法律人可以借用社会学的“机制”(mechanism)和“结构”(structure)方法,来适当约束自己的技术想象。所谓“机制”,是指微观场景中一连串反复出现的事件关系。譬如说,只要某一主体进入某场合,作出某行为,一般而言,就会触发某法律关系,产生相应权利和义务。所谓“结构”(structure),即在宏观制度层面,诸多社会现象被划分为不同类型。譬如法律把车辆分为不同类型,进而赋予不同的交通规则。在不同类型社会现象之间,还存在互相影响,甚至是决定与被决定的关系。譬如法律社会学者往往会强调,在某些少数民族聚居区,地理环境和游牧生活方式决定了某些法律(海商法或者不动产法)无法适用。机制与结构没有绝对边界,我们往往需要结合二者来研究社会现象。而且法律思维和法律制度本身就包含结构和机制两种要素。例如,正当防卫和防卫过当,就是刑法中的两种责任结构;在司法实践中,法官对正当防卫的适用,一般都会遵循相近的规则解释方法和标准,即呈现出相近的裁判机制。
“结构”和“机制”同样可以帮助作为技术门外汉的法律人来想象世界模型。一方面,这种想象需要以既有人工智能理论和技术作为理解基础,不至于脱离现实;另一方面,这种想象需要省略大量技术“细节”,提炼出与法律客体、法律行为、法律关系等等与法律制度密切相关的技术要素。或许在一些人(更可能是技术专家)看来,这种想象根本无法进入技术语境,依然是“槛外人”的幻想和误解。但本文认为,法律人学习科学技术应当“以我为主”,量力而行,不能用技术专家的标准来要求自己,甚至越俎代庖;如果对科学技术理解有误,就应当即时更正,而不能因为害怕犯错而拒绝学习。

(一)
世界模型的技术结构

所有遵循冯诺依曼架构和图灵机模型的人工智能技术,都必然包含信息输入、信息计算和信息输出三个环节。就大语言模型、生成式人工智能或者世界模型而言,它们也都必然包含数据输入、数据训练和内容生成这三个环节。至于人工智能所处的网络空间,人们根据技术协议,也对它予以结构化分层,例如应用层、代码层和物理层。目前法律人多数都接受了上述“结构化”技术想象,主张在不同的人工智能环节和网络层级上,不同主体应当承担不同的权利、义务和责任。

(二)
世界模型的应用机制

虽然世界模型尚处于起步阶段,但根据现有人工智能应用情况,我们依然可以推知,它无非是要提供如下三类服务:
其一,生成内容作品。现代人工智能最基础的服务形式,就是提供数字和文字符号,以及图片、音频和视频等内容作品。大语言模型和大视频模型是目前人工智能产品的主要技术方向。但只要世界模型朝着多模态和通用人工智能方向发展,其能生成的内容还需要包括声音、语音和音乐,以及人类可以通过身体感知的形体(类似3D打印)、气味、触觉和动作。
其二,参与社会交往。无论在训练还是应用中,人工智能生成内容都是人机互动的结果。如果人机互动复杂到一定程度,那么人工智能就有可能被具身化(embodied),化身为可以与人类进行社会交往的行动主体。这种具身化既可以存在于虚拟空间,也可以通过技术手段(例如人形机器人)进入现实世界。当然从实质上说,人工智能具身化是人类头脑生成的技术想象和社会想象。目前人工智能已有能力陪人类聊天、学习和游戏,满足人类多种社交需求和情感需求。世界模型不仅会让这种社会交往更加逼真,而且可能会产生新型的社会交往形式。例如人们已开始尝试,让逝去亲人或明星“数字复活”,并引发巨大的伦理和法律争议。
其三,辅助人类决策。人类每天都需要在健康、饮食、交通、学习、投资、消费、管理和工作等方面作出各种决策。人工智能提供的内容和社会服务,可能已经包含了一部分对人类的决策建议。但随着技术和应用发展,人工智能的决策建议将会深深嵌套在人类社会的种种制度之中,以更加隐蔽、自动的方式来执行。如果由世界模型来提供决策建议,这些决策建议恐怕会极其合理,极其有说服力,以至于是人类“无法拒绝的建议”。在特定场景中,例如自动驾驶,世界模型完全可以替代人类司机,成为驾驶行为的主要决策者。

(三)
世界模型的媒介机制

人工智能运行的技术环境或技术载体,可以被统称为媒介(medium)。相同或类似的技术,在不同媒介中运行,就可能会产生截然不同的社会效果。例如绘画人工智能Stable Diffusion可以部署在用户自己的个人计算机上,因而赋予用户较多的创作自由,以及对数据和作品较高的控制权。而同为绘画人工智能的Midjourney则只能在服务商的服务器上运行,用户必须付费使用,且接受服务商相对严格的内容审查。政府和企业在选择作为人工智能算力基础设施的云服务器时,会根据安全、性能和成本等多方面因素,选择公有云、私有云、专属云或者混合云这些不同的技术方案。同理,世界模型的运行媒介大致包括如下几类:
(1)公共设施。此时世界模型的提供者是政府和公共机构(例如医院、科研机构或学校),但也有可能是作为“公共承运人”(common carrier)的私人主体(例如提供邮政服务或支付服务的企业)。这种服务一般是廉价或免费的,针对普罗大众。但提供者往往具备优越的技术能力或者政治、社会权力,所以普通用户会受到较多限制和控制。
(2)商业设施。当营利性社会主体(例如科技公司或平台企业)是世界模型的提供者时,消费者和劳动者一般会享有性能更好以及符合个性化需求的技术支持。但也因此,消费者可能需要支付较高的费用,劳动者则可能会牺牲更多的自主性。
(3)私人设备。如果世界模型可以离线部署在公民个体的私人空间(私人住宅或私人汽车)和设备(电脑、手机、手表、家用电器)之上,那么个体将对世界模型享有较完整的所有权和使用权,而且它实际上已经成为私人生活的组成部分了。
(4)身体。界模型还可以直接部署于人类身体内部,成为人体一部分。这已经不完全是科幻,因为脑机接口或者赛博格正在成为现实。
当我们在“结构”和“机制”意义上理解世界模型时,会发现它并不是一个简单的法律客体,而是波斯纳建议法律人认真对待的一种复杂系统。换言之,波斯纳不会建议我们采用单一的法律制度、法律逻辑或者法律策略来规制世界模型。就算我们能够迅速制定《人工智能法》这类单行法或者《生成式人工智能服务管理暂行办法》这类行政规章,但仅凭这些法律法规本身,并不足以解决大多数人工智能法律问题;就立法技术而言,这些法律法规更像是“枢纽性规范”,即把散落在法律体系各个角落的人工智能相关法律规范整合在了一起。
其实包括隐私权在内的诸多法律权利,都是波斯纳所谓的复杂系统。就《民法典》第1032条规定的隐私权而言,它的内在结构,就包含了生活安宁、私密空间、私密活动和私密信息等类型;在法律实践中,隐私权的客体和法律关系,又会与财产权、著作权、名誉权、肖像权、个人信息、数据等其他权利利益相互交错。所以,如果把“世界模型”和“隐私权”当作两个纯粹抽象的个体单位来讨论它们的彼此关系,是不会有太大理论和实践意义的。
三、从技术机制到隐私机制
新技术对社会生活产生实际影响,往往需要一个漫长且充满不确定因素的过程。一般而言,新技术总是需要先应用于社会生活,改变了社会关系或者社会结构,进而才能促成法律变革。也因此,本文在讨论世界模型对法律隐私权的影响之前,需要先来分析世界模型是如何影响隐私社会关系的。
隐私作为一种社会关系,它的范畴大于隐私权或者隐私法律制度。其实从古至今,人类社会就一直存在隐私关系。直到20世纪,隐私权才进入法律规范。一些当代国家——例如德国和英国——的成文法至今没有隐私权设置,但这也不意味着这些国家不保护隐私。只要有不同的社会形态,就会有不同的隐私关系。
当一项技术被应用于人类社会,生成出或伴随着相对稳定的社会关系和行为模式时,技术机制也就与社会机制(social mechanism)纠缠在一起。福柯在《规训与惩罚》中就形象描述过,丈量技术、计时技术和监控技术是如何规训人类的身体和心灵的。本文接下来会提出四种社会学意义上的隐私机制。在“理想类型”意义上,只要人性不发生根本改变,这四种隐私机制就会普遍存在于各种社会形态之中。在具体时空条件下,包括世界模型在内的各种技术会作用于这四种隐私机制,让它们呈现出不同样态。而本文的观察重点,是世界模型的技术机制将会给这四种隐私机制带来哪些新的变化。

(一)
对世界现象的还原

人类尝试过许多手段来还原世界,例如文字、绘画、照相和摄影以及全息投影(holographic projection)。但这些手段只能还原局部世界,必然会丢失或扭曲大量世界信息,对世界进行非完整且非真实的表达。美国科幻作家姜峰楠指出,无论复印机、照相机、电脑还是大语言模型生成的文件,都只能对“原件”进行压缩。同理,人类肉眼和大脑对世界的观察和记忆也有信息损耗,也是对世界图景的“压缩”。作家刘易斯·卡罗尔、博尔赫斯和埃科都在文学空间里描绘过一比一的地图,让地图几乎成为世界的复制品。刘慈欣的科幻小说《镜子》设想出一台强大的计算机,可以生成整个宇宙的镜像,因而有能力探知宇宙中过去、现在和未来所有事情的奥秘。这些文学想象其实都是世界模型,而且可能是人类力量永远都无法真正实现的世界模型。V-JEPA能够预测出一个笔记本被遮挡的部分,与上述文学想象相比,虽然相形见绌,但毕竟已经迈出了至关重要的第一步。
技术机制的更新,必然会促动隐私机制作出相应调整。在法学界最早或许也是最重要的一篇隐私权论文中,沃伦和布兰代斯就提及因照相机拍摄引起的隐私案件。当时会有许多人不理解:既然观众有权利在剧院观看舞蹈演员演出,那为什么没有权利用照相机把肉眼看到的情景复制下来?随着技术继续进步和普及,公众逐渐意识到,肉眼只能帮助人们在大脑中留下模糊易逝的记忆,而照相机则让人们获得清晰的复制品,更方便保存、占有和传播;此外,人们还可以对照片进行加工,用于窥私、广告和宣传等目的。这也是为什么,过去法学界一度认为在公共场所不存在隐私,但随着技术进步,人们才不得不接受在大庭广众之下也能被侵犯隐私的事实。这也意味着,只要世界模型被普遍应用,人们就会逐渐把一些过去不太重视的生活场景和内容当作隐私保护起来。

(二)
对因果关系的探究

如果说对世界的复制、重复和模仿是人类社会和人类个体的本能,那么探究真相(即世界现象之间的因果关系)、探究他人秘密,也是人类与生俱来的本能。自然科学家需要了解自然界的物质结构和运动规律,社会科学家需要了解人类社会的运行机制,人文学者需要解释“美”和“善”的价值基础,统治者和管理者需要掌握人群的活动状况和行为规律……至于普通人,自然也需要了解家人、朋友、同事、邻居乃至陌生人的真实状况和想法。世界模型当然可以扮演人类探知真相的工具,而且它或将成为人类有史以来所有探知真相工具的总和。
对世界现象的复制,不等于对世界真相的揭露。因为自然界或者社会的“真相”不会作为画面直观地呈现在我们的肉眼前。就宏观尺度而言,只要世界模型能够生成规模足够庞大的世界复制品,那么它就可以开启所谓“上帝视角”,对自然事物和社会事务的潜在运行规律都了若指掌。而且可能就像朱迪亚·珀尔所说的,假如有了这样的世界模型,因果关系以及人类干预也就失去了意义,因为一切都被视为“命中注定”。就微观尺度而言,世界模型也可以帮助人类探寻局部空间内部的真相。就像电影《放大》和《银翼杀手》里所展现的,只要图像的解析度大到一定程度,人们就可以对它不断放大,直到发现肉眼无法直接察觉的秘密。

(三)
对世界现象的虚构

从严格意义上说,对世界的模拟(simulation)不等于对世界的复制。以Sora为例,它描绘的自然和社会场景虽然逼真,但也只是以假乱真,并非对真实世界的还原。所以世界模型不仅是求真工具,也可以是造假或者“造梦”的虚构利器。但我们能否说,只要人工智能生成出来的不是真相,就与现实世界的人类隐私无涉了呢?答案当然是否定的。因为我们已经见识过,深度伪造(deepfake)这种技术是如何篡改现实的。当人工智能把真相与假象混合在一起时,它依然有能力影射现实、干预现实。就像文学家经常采用移花接木、指桑骂槐、暗度陈仓等笔法一样,人工智能也可以用隐喻、夸张和戏仿等不完全符合真相的方式,来披露人们的隐私。
或许世界模型还会把真相与假象的边界变得模糊不清。鲍德里亚提出人类有三种创作活动。其一是模仿,即对原件的复制。其二是批量复制,即取消原件和复制品的区分。所有规模化工业产品,例如手机,都既是原件也是复制品。其三是“拟像”(simulacres),它不仅抹去原件与复制品的边界,还抹去了真相与假象的边界,成为“超真实”(surreal)。“拟像”概念很是晦涩,但我们可以这样理解:人们只关心在世界模型中的生活及其“隐私”,以至于“假作真时真亦假”,真真假假分不清也就没必要分清了。所以,世界模型亦有可能塑造出现实世界不曾有过的隐私空间和隐私关系。

(四)
对社会人格的伪装

造假不仅是一种隐私侵犯机制,同时也是一种隐私维护机制和隐私生成机制。无论在法学意义上还是社会学意义上,人格(person)都是每个人外在的社会面具。无论在人性本能还是在生活技巧上,每个人都会精心设计、打造和维护自己的社会面具。隐私权的价值之一,就是帮助人们自我包装,把一部分真实个人信息(例如自己的“黑历史”)隐藏起来,让别人相信、接受一个并不完全符实的个人形象。波斯纳把这种隐私机制称为“虚假表现”(misrepresentation)。这当然是骗人,但往往也是被人类社会制度容忍和保护的骗人。世界模型无疑会极大地增强人们的虚假表现能力,更好地保护某些类型的隐私。
其实当下的人工智能已经被普遍应用于人格伪装了。例如,现在手机的摄像模块大都融入了人工智能成像技术。我们用手机拍摄的任何照片,都不是对现实世界的真实复制,人工智能会自动帮我们进行加工和修饰。更何况,手机还会非常“贴心地”附带修图和美颜功能,对用户“赋能”,让我们可以在社交媒体上发布比真相更“美”的个人形象、私人生活和世界景观。这种人格伪装机制,甚至已经成为一种“礼貌规则”(rules of civility),被普遍得到遵守和尊重。在许多需要“出镜”的行业,例如直播带货,“虚假表现”更是必备的职业技能。
做个小结:以上四种隐私机制,在人工智能技术之前即已存在于人类社会。只要人工智能朝着世界模型的方向发展,那么它不仅不会破坏这四种隐私机制,反而是对它们的极大强化。人们会因为世界模型而拥有更加便利地侵犯他人隐私的能力(前两种隐私机制),也会因为它而获得更为安全可靠的隐私屏障(第四种机制),亦有可能会通过它来塑造新型隐私关系(第三种机制)。
四、隐私权的无力及其原因
人工智能是与计算机、互联网一脉相承的信息技术。在互联网兴起初期,莱斯格就观察到信息技术正在普遍且深刻地改变全社会的隐私状况:第一,公民个体无论在公共空间还是私人空间,都会受到信息技术的全面监控;第二,监控者既可以是政府部门,也可以是私人企业;第三,数据将成为主要隐私载体以及监控对象。人们在世界范围内都感受到隐私权或隐私法已无力保护公民个体的隐私,纷纷发出“隐私已死”的感叹。
其实我国法律从2000年开始,几乎与互联网兴起同步,就一直在积极回应信息技术的隐私挑战。隐私权在2021年被最高人民法院解释为独立民事权利,分别于2009年和2017年被写入《侵权责任法》和《民法总则》,并在2020年被《民法典》给予详细的定义、分类和保护措施。但随着区块链、人脸识别、脑机接口和生成式人工智能的日新月异,人们依然对隐私权制度能否为隐私权提供有效保护怀有疑虑。虽然Sora、 V-JEPA和Genie目前只是雏形,但我们依然可以预见,世界模型隐私机制下许多问题,都是我国现有隐私权制度无力解决的。

(一)
个体作为制度起点

《民法典》第1032条规定“自然人享有隐私权”,第992条规定“人格权不得放弃、转让或者继承”。第993条列举了部分人格权可以被许可他人使用,第999条也列举了部分人格权可以被合理使用,但都没有明确提及隐私权。因此,人们一般认为,《民法典》隐私权是一项专属于个体的排他性权利,不能与他人共享或者让渡给他人。然而,这一对隐私权的理解与我们的日常生活经验大相径庭。因为人类是社会动物,必然要与家人、朋友、同事甚至萍水相逢的路人分享《民法典》第1032条提到的“私人生活安宁”“私密空间”“私密活动”和“私密信息”。于是,有学者提出“群体隐私”(group privacy)或“集体隐私”(collective privacy)概念来解释非个人独占隐私的情形。而且在群体中,人们对同一份隐私未必享有平等权利。例如在亲子之间或者师生之间,主要是由父母和教师来决定是否披露以及向谁披露他们共同的隐私。
当所有人都可以使用Sora、V-JEPA和Genie时,必然会有人把自己的相册、日记和录像投喂给机器,生成包含群体隐私的视频。这意味着人们在使用或披露自己隐私时,会连带使用或披露他人隐私。然而隐私并不是可量化、可分割的实体,难以分清这是“我的”还是“他的”,或者“以我为主,以他为辅”,以及不能照搬财产的共同共有和按份共有模式。如果强行启用《民法典》第1033条规定的个体同意机制,即征得所有隐私相关自然人的同意后方能生成、使用和披露视频,又会与社会生活实际情况脱节。世界模型模拟的世界,当然可以是一个人的孤独世界。但更有可能,它会是无数个充满复杂人际关系的嘈杂世界,而这其中的隐私,自然就很难用个体隐私权来界定和保护了。

(二)
个体同意能力的缺陷

《民法典》第1033条则规定:“除法律另有规定或者权利人明确同意外,任何组织或者个人不得实施下列行为……”自愿原则是《民法典》的基本原则(第5条),我们必须尊重。但同意权被滥用或者误用在实践中屡见不鲜,“理性人”假设并不符合真实人性。行为科学已经证明,人是很容易被“助推”或操纵的。在信息媒介和算法加持下,人们太容易被信息内容诱惑、俘获甚至支配。第1033条的“除法律另有规定或者权利人明确同意外”,是指本条之外的其他法律可以限制个体同意权,即无须权利人同意,第三方也可以合法实施隐私侵犯行为。但是从逻辑上推理,第1033条似乎也意味着,只要权利人同意,哪怕其他法律禁止,第三方也可以实施侵犯隐私行为并免责。换言之,本条只规定了对个人同意的限制,而没规定对个人同意的扶持或弥补。
当世界模型提供辅助决策服务时,它倒是可以帮助人们作出更合理甚至唯一正确的“同意”。但悖谬的是,如果按照《民法典》第1033条的同意制度,我们使用世界模型的前提,就是要“同意”它来控制我们的隐私。这是我们前面分析过的:世界模型既可以是最好的隐私助手,也可以成为最恐怖的隐私恶棍。莱斯格早就指出,单靠技术,是无法避免隐私侵权的。但问题也就在于,目前的法律制度很难对隐私同意能力给予有效扶持。而且肯定会有很多人坚持,“后果自负”是所有成年人都应当承担的社会责任和道德义务,法律就不应该去主动弥补同意能力的欠缺。于是乎,同意问题在技术和法律两个层面可能都是无解的。

(三)
公私边界的模糊

《民法典》第1032条把隐私权分为安宁隐私权和私密隐私权两大类。无论“私人生活安宁”还是“私密空间”“私密活动”“私密信息”,处处都在强调一个“私”字。这里隐含了一个社会结构假定,即存在二元对立的公私领域。但根据史学和社会学研究,“公”和“私”都是被建构出来的制度形态,不是所有社会都存在泾渭分明的公私领域。而且“公”“私”也是人们的制度想象,必然具有主观性和“地方性”,根本就找不到绝对且客观的边界。一般来说,向公众披露他人隐私,是侵犯隐私权的一种主要形式。但这种说法并不精确,因为何为“公众”有待进一步的解释和界定,信息传播也不等于信息公开。难道私密信息在熟人圈、小群体或者小范围内传播,不必然等于隐私已被公开并因此不能再得到隐私权制度的保护。而且在传播学意义上,只要有了电话、收音机、电视机和计算机这些信息媒介,私人空间就无法与公共空间完全隔离。我们既可以“在家办公”(work from home),也可以把个人隐私带入劳动场所。
如果要严格贯彻公私领域二元对立的隐私权观念,那么世界模型对世界的复制就注定是不完整的了。如果人们只是利用世界模型对自己的住宅进行复制,那么问题还不太大(但也会有某些问题,譬如在不同血亲、不同辈分、不同性别的家庭成员之间,也存在隐私分隔)。但如果我们开始复制社区、办公场所、旅游场景或者演唱会现场……问题就来了。其实在并不遥远的过去,我们用胶片相机做类似事情,就很少会产生隐私纠纷。但在网络时代,特别是将来世界模型被普遍应用以后,这类隐私问题就会变得格外复杂棘手,至少很难用公私标准去解决了。

(四)
安宁权的泛化

《民法典》第1032条规定的安宁权或安宁隐私权,或许是最接近“原旨主义”的隐私权。在沃伦和布兰代斯之前,库利法官就用“不被打扰的权利”(the right to be let alone)来表达隐私诉求。沃伦和布兰代斯对安宁权还有另一种表述,即“享受生活的权利”(the right to enjoy life)。安宁权旨在保障私人身体以及所在空间不被打扰。像噪音、气味、烟尘、振动以及旁人的视线等,只要引起权利人的注意,让其心烦意乱,就构成对安宁权侵犯。《民法典》第1033条第1项规定,人们不得“以电话、短信、即时通讯工具、电子邮件、传单等方式侵扰他人的私人生活安宁”。关于安宁权的争议在于,人身权、财产权等其他权利也能保护安宁利益,法律何必要用安宁权来叠床架屋?生活中的磕磕碰碰在所难免,无论根据社会规范还是个人生活经验,人们在受轻微的侵扰时一般都会忍让,不会积极“私力救济”,更不会积极诉诸法律程序;如果问题严重,则会优先考虑诉诸行政部门或者有管理职能的主体,而不是隐私权诉讼。在网络环境下,侵犯安宁隐私和侵犯信息性隐私往往是同一行为,例如《民法典》第1033条规定的“进入”“拍摄”“窥视”“窃听”等行为;由于缺乏明确、统一且稳定的安宁秩序认定标准,所以安宁权往往被弃之不用,被私密隐私权替代。
如前所述,只要世界模型继续发展,那么它一定是多模态的,即还可以生成音频、形体、动作、振动、气味和滋味等人类能够通过身体感知到的内容。至于这些内容是否会对私人生活安宁构成侵扰,将取决于世界模型部署的媒介方式以及应用方式。如果世界模型部署在公共场所或者办公场所,那么此时就不构成“私人生活”场景。如果世界模型是一种支持多人参与的社交空间或者游戏空间,那么私人主体之间就可能会出现打扰、骚扰甚至性侵的可能。但这类问题,一般是由运营者、用户以及法律等多方力量一起互动博弈,最终通过调整技术设计来解决,而不会仅仅诉诸安宁隐私权。如果世界模型经过用户“同意”,被部署在私人家庭、私人设备或者身体内部,那么此时世界模型就已经融入私人生活,参与构建私人生活,本身成为“生活安宁”的组成部分。当世界模型功能足够强大时,它可以形成一种注意力屏障,让用户不受外界干扰。或者说,世界模型可以帮助人们保持足够的社交距离(social distance),尽量减少相互冲撞。如果人们都深深沉浸在世界模型为自己“私人订制”的“美丽新世界”中时,也就可以享受完全不被打扰的“特权”,无须安宁隐私权的救助了。
五、个人信息法与数据法的规制策略
基于以上分析,以世界模型为发展方向的人工智能具有三种技术特征:首先,在大规模收集私密信息、个人信息和个人数据的同时,也在大规模生成私密信息、个人信息和个人数据;其次,在全面介入私人生活的同时,也在参与构建或重构私人生活;最后,在影响人们的情感、价值观和自由意志的同时,也在辅助人们作出更好、更正确的选择。所以,世界模型是一个矛盾体:它既可以是侵犯隐私的利器,也可以是生成和维护隐私的有效工具。
世界模型必然会在诸多社会领域以及社会主体之间引发错综复杂的利益纠纷和权利纠纷。但隐私权的模糊性和主权性也决定了,它不能精确且高效地处理上述纠纷。由此我们也可以理解,为何在近年来已呈现一种趋势,即隐私权的法律制度功能,正在受到个人信息法益和数据法益的侵蚀和挤压。
从《民法典》角度来看,隐私作为“权利”,似乎比个人信息和数据作为“法益”更受重视。但这种理论推测,在法律实践中很难找到证据支持。其实我们已经看到,隐私权是一项极其主观化和个性化的权利,缺乏统一且稳定的认定标准来处理人们之间的纷争。在一个同质化程度较高的社会,人们或许还能在隐私问题上达成较大共识;但现代社会的一个普遍特征,就是价值多元和价值分裂。个人信息和数据虽然也具有概念和操作标准上的含混性,但它们已经拥有大量为之专门制定的法律法规——例如《个人信息保护法》(以下简称《个保法》)和《数据安全法》——以及行业规范,比隐私权具有更强的可操作性。就隐私权内部结构而言,私密信息与个人信息也相互重叠。与信息技术和信息经济兴起相伴随的,就是经济学、社会学、政治学以及法学等社会科学开始采用量化的、可计算的方式来研究问题。也因此,信息隐私(information privacy)或数据隐私(data privacy)成为一些隐私权研究者的关注重点。无论信息还是数据,在实践中都可以具有更高的技术性、确定性和可操作性。如果说安宁隐私权这样的传统隐私更强调情感价值,那么信息隐私或数据隐私则更强调“工具理性”(instrumental reason),更容易融入信息化、网络化和智能化的社会系统。这里需要再次强调,隐私机制不等于隐私权或者隐私法。于是存在一种可能,即随着社会信息化程度加深,大量隐私机制都会与信息法、数据法结合得更为紧密,隐私权反而会被逐渐架空和掏空。
如果我们的预测是对的,那么世界模型不仅是这一趋势的见证者,而且也是这一趋势的推动者。当被问及Sora的训练数据的来源时,OpenAI方面回应称是“公开数据和授权数据”,但这并没有打消人们的隐私疑虑。因为几乎所有科技公司和平台企业,都擅长通过用户“同意”来获取个人数据,以及在所谓的公共领域爬取公开数据。这些数据,大都会经过法务人员和技术人员的严格处理,成为“脱敏”的、可以安全使用的合法数据(即便没有法律认可的数据财产权)。上述法律手段和技术手段可能成功地排除了法律层面的隐私侵权风险,但是在作为社会关系的隐私机制层面,它们是否真的就能做到与隐私无涉了呢?祖博夫就把这种数据生产机制称为“监控资本主义”(surveillance capitalism),即所有用户实际上都在接受技术监控,并源源不断地为企业生产和循环作为生产资料的数据。在这个意义上,隐私权对个人隐私的保护“无力”,反倒成了对技术公司一种制度性保障,促使它们以更合理、更高效、更容易被社会公众接受的方式来运营。换言之,隐私权的衰落或许并不是最重要的事情,甚至不值得我们为之遗憾和哀叹。如今更需要法律人关注的,是如何合理建构个人信息法和数据法,让它们“为人民服务”,同时在形式和实质上保护隐私,而不是为侵犯隐私的活动“明修栈道,暗渡陈仓”。
就我国《民法典》《个保法》和《数据安全法》中的个人信息和数据法律规范而言,它们实际上已经为人们生活中的隐私关系建构起了相对完整的法律基础设施和防御体系。例如,个人信息法律规范可以帮助我们较为清晰地认定,人工智能侵权行为的客体、主体和归责原则。数据法律规范则致力于严格划分数据权利的类型、归属以及权利边界,从而为人工智能的研发和应用提供更为合理且稳定的制度保障。但是就目前的技术现状而言,为了有效规制世界模型可能带来的隐私风险,个人信息法和数据法至少还需要作出如下三方面的应对。

(一)
强化对个人信息的行政规制

《民法典》第1035条和《个保法》第13条第1项都把获得个人信息主体同意作为处理他人个人信息的一般原则。但是在世界模型应用场景中,不同主体的个人信息必然会相互交织,服务提供者也会具有对个人用户更为强大且隐秘的诱惑力,且可让个人用户承受过高的私法救济成本。因此,监管主体可以沿着《生成式人工智能服务管理暂行办法》等规范的规制逻辑,提供更为细致的行为规范,并不断动态调整。具体而言,监管机构可以参照卡拉布雷西和梅拉米德提出的“权利规则、责任规则和不可让渡性”框架,把个人信息划分为三类:①个人用户享有完整的同意权的个人信息,这与《民法典》和《个保法》的一般规定保持一致;②无须个人用户同意即可使用的个人信息,这需要监管主体列出较为详尽的“白名单”;③禁止个人用户授权的个人信息,这包括违背善良风俗或国家安全的个人信息,需要监管主体列出明确的“负面清单”。

(二)
提供差异化的应用场景行为规范

世界模型不是“单一功能”或“多功能”技术,而是能够系统改变社会生态的“基础设施”技术。因此,法律不能“一刀切”,而是需要根据不同社会关系来调整世界模型的具体应用。根据前文提到的世界模型作用于社会的媒介方式,立法者和监管者至少需要区分如下应用场景:①公共场景,例如道路交通、公园、广场等,此时世界模型作为公共基础设施,应当在收集、使用个人信息和数据上享有较高的特权;②公益场景,例如学校、科研机构、医院等,此时应赋予世界模型较为宽泛的收集、使用个人信息和数据的自由;③社会交往场景,包括劳动场所和娱乐场所,此时法律应当在个体信息权益和其他社会主体利益之间寻求平衡;④私人生活场景,此时个人可以享有较高自主权,但法律依然需要对世界模型可能提供的有违伦理或国家安全的服务予以禁止。

(三)
建立多方参与的治理模式

个人信息和数据是人工智能技术研发和应用的基础原料和生产资料。如果沿袭传统财产权或法律经济学进路,那么法律应当把个人信息和数据视为可分割且可量化的客体。但随着生成式人工智能技术的发展,法律人已经注意到,数据其实是弥散且流动在人工智能研发系统的每一个层次、环节和链条上的;在不同技术语境中,数据的法律意义以及相关主体的法律权利、义务都应当各不相同。已有学者提出,传统的法律客体想象和权利观念,已经不再适用于当下的数据技术及其商业模式;对数据进行精确的“界权”或者“分权”,不仅在技术层面难以实现,在法律实践中也缺乏效率。法律的个人信息和数据治理策略,应当侧重于为各类数据主体提供明确的行为规范;但更重要的是,法律在提供行为规范之前,应当“以人为本”,在研发者、运营者、监管者、个人用户和社会群体之间建立起有效的沟通机制。如果我们并不迷信“技术决定论”(technological determinism),即认为世界模型发展路径和应用模式必然且只能由技术专家说了算,那么就应当鼓励多方社会主体共同参与到人工智能技术发展路线的设计、运行和维护过程中来。受篇幅所限,本文无法对“多方参与治理模式”进行具体探讨。因而在此处,本文只是建议立法者、监管者和法律人选择“多方参与治理模式”来应对世界模型的隐私问题。至于更为广泛的大众,本文亦想建议:只要我们真的在乎自己的隐私和美好生活,那么就不能被动等待技术赋权或者法律赋权,更不能无视技术发展及其社会影响;而应当积极学习技术,在法律等制度层面给予积极反馈,有胆魄和毅力去“中流击水”,促进“科技向善”。
结语
以Sora、V-JEPA和Genie为雏形的世界模型是一个矛盾复合体。它完全可能延续边沁和福柯的技术想象,为人类打造最完美的圆形监狱,但也可能反其道而行之,极大地解放人类的生产力和创造力,构建更合理的生产关系和社会制度。世界模型可以是求真务实的复制工具,但也可以是虚构造假的模拟工具。我们或许会迎来一个更重视真相、相对不重视隐私的世界模型,但也有可能,我们会迎来一个更擅长模拟、让人们沉湎于“虚假表现”和“安宁独处”的世界模型。世界模型可能会以非常隐蔽的方式来支配我们的隐私,让我们无法察觉,但亦有可能,它会如我们所愿,帮助我们更好地塑造自我,更好地经营生活,更好地维护自己和他人的隐私。
我们也已经论证了,诉诸隐私权并非保护隐私的唯一路径和最优路径。无论在技术层面(例如世界模型)、社会层面(例如隐私机制)还是法律层面(例如个人信息法和数据法),我们都能找到相对适合自己的隐私工具。当代隐私权制度的无力(它并没有死去),是信息技术进步和现代社会变迁共同促成的结果。虽然隐私权在今天依然是一项重要法律制度,在公众舆论和理论话语中甚至还保有某种神圣性,但在法律实践中,隐私权的制度功能正在被削弱。至少就人工智能和世界模型而言,个人信息法和数据法将是更为有效的隐私保护工具和隐私治理工具。
总而言之,世界模型作为一项技术,不可能单独决定社会的隐私机制和隐私法律制度。而包括我们法律人在内的所有人,都有机会和能力,参与到世界模型的技术发展潮流中去。
原文链接

岳林:论世界模型的隐私机制及其法律规制 ||《地方立法研究》

往期精彩回顾

李本 冯金凤|CPTPP安全例外条款的限制性适用基准建构及中国因应
马忠法|国际知识产权法律制度发展趋势及中国应对
何佳馨|中华法系与中华法律文化关系考辨
曾大鹏|《民法典》居住权的三层构造之解释论
李本 种瑞璇|我国国有企业承担环境社会责任的制度建构——以对接CPTPP相应规则为视角
王静|智慧司法的伦理风险及其应对

上海市法学会官网

http://www.sls.org.cn