理论账、实践账、经济账:争议中的生成式AI服务侵权第一案

扬科启航 25083

21世纪经济报道记者 冯恋阁 王俊 广州、北京报道

一石激起千层浪。

近日,广州互联网法院近日生效了一起生成式AI服务侵犯他人著作权判决,这也是全球范围内首例生成式AI服务侵犯他人著作权的生效判决(独家丨AI画出奥特曼:中国法院作出全球首例生成式AI服务侵犯著作权的生效判决)该案认为,被告(某人工智能公司)在提供生成式人工智能服务过程中侵犯了原告对案涉奥特曼作品所享有的复制权和改编权,并应承担相关民事责任。

判决结果公开后,争议纷至沓来。

是不是只要使用模型生成了著作权保护的形象就是侵权?版权内容是不是从此要从训练数据库中被剥离?人工智能服务提供者是否责任过重?.......行业,尤其是大模型厂商惴惴不安,法学界也暂未在这些问题上形成共识。 

尽管我国并非判例法国家,但生效的判决无疑会对人工智能产业造成影响。一往无前发展技术,还是率先开展治理,似乎是任何一项新技术都面临的左右互搏的处境。

生成式人工智能工具对著作权法理论与实践造成的影响,刚刚开始,新一轮的利益对价仍在探索中。 

接触+实质性相似?能否解开AI版权之问

侵权判断问题是这起案子判决公开后的第一大争议点。

“著作权法下对侵权行为的证明有两种方式。”同济大学法学院助理教授、上海市人工智能社会治理协同创新中心研究员朱悦指出,一种是直接证明,即通过自认、物证等证据证明侵害版权的行为已经发生;另一种则是引入了环境因素的间接证明,即通过“接触+实质性相似”的要件来判断作品是否被侵权。

在版权法刚刚诞生时,由于技术发展所限,承载表达的往往是具有物理实体的“版”,通过直接证据证明侵权相对容易。然而,随着技术进步和作品范围扩大,作品的形态更加丰富,直接证明变得更加困难。直接证明的情况变得越来越少,“接触+实质性相似”这类间接地证明复制的方式逐渐成为主导性规则。 

生成式人工智能技术的全新技术和应用模式为著作权法带来的担忧之一是:AI工具是否还能适用“接触+实质性相似”侵权判定

“AI应不应该走这条举证路径,从回归历史、着眼技术的角度来看是可以讨论的。”朱悦告诉21世纪经济报道记者,直接证明可以是AIGC版权问题下的一个进路。“代码中的数据预处理、数据表征和训练参数等信息都是客观存在的。有可能通过直接查看代码来判断是否存在著作权法所保护的行为。”

不过,暨南大学法学院/知识产权学院副教授吴雨辉指出,接触+实质性相似是当下判断著作权侵权的通用标准,如果认为AI工具不适用这一侵权判定,需要做出足够充分的论证,否则将会对整个著作权法理论与实务产生冲击。

在被判定侵权后,合理使用往往被作为一种救济思路。不过在本案中,合理使用这一制度并没有被讨论。

阿里研究院AI治理中心主任傅宏宇认为,目前大模型生成能力愈发强大,一方面,在各类场景中用户期待模型能够生成更为逼真的图片,而另一方面,AIGC侵犯版权的风险依然普遍存在。法院理应回应AIGC技术带来的核心差异,以及此类技术是否构成合理使用(包括转换性使用)。 

“基于AI的应用场景越来越广泛,从利益平衡方面,技术发展和公众利益需要全面充足的训练数据,故两者利益超越了版权人的利益,使用版权作品作为训练数据应当构成合理使用。”南京师范大学法学院教授、博士生导师梁志文表示。

梁志文认为,为避免“垃圾进、垃圾出”的结果,AI训练使用版权作品,符合促进技术发展的要求。版权材料作为训练数据时,本身不属于表达性使用,不同于读者的欣赏,也不同于软件的使用,它仅作为一项类似于事实的数据而被使用。“训练数据市场非属版权人固有的许可市场,其使用没有影响版权人对版权作品的正常利用。AI训练数据也不应属于版权人的潜在市场。”

吴雨辉认为,在人工智能进行数据输入的阶段,存在拓展合理使用范围的讨论空间。因为当下的人工智能深度学习对于数据的使用情形,无法直接适用合理使用的法律规定。但考虑到产业发展的合理需求,确实可以考虑在满足“三步检验法”等审查标准的前提下,设置人工智能深度学习的合理使用特殊情形。

平台、用户、开发者,谁的责任?

本案的另一个争议焦点,是明确指出了人工智能服务提供者的注意义务。本案指出,依据《生成式人工智能服务管理暂行办法》《互联网信息服务深度合成管理规定》等规定,服务提供者应采取建立举报机制、提示潜在风险、进行显著标识等行动。

法院的判决表明,生成式人工智能服务提供者需要对AIGC潜在的版权风险承担一定责任。“这让企业无所适从,接下来合规到底该怎么做?”不少科技公司法务向21世纪经济报道记者表示。 

不同角色的权责如何划分,不仅是本案,也是人工智能版权法讨论中最复杂、最重要的问题。

傅宏宇认为,判决可能存在将版权注意义务和人工智能合规责任混同的问题。 

在他看来,判决认定被告的“过错”时,援引的并非版权法的规定,而是认定被告没有按照《生成式人工智能服务管理暂行办法》建立投诉举报机制,未对潜在风险进行提示,缺乏对生成内容的显著标识,从而构成版权法意义上的“过错”。

“著作权法并没有对AIGC平台的义务作出明确规定,但是学界和实务界早已广泛讨论过AIGC的相关知识产权风险,AIGC平台理应对相应风险有所预知。”吴雨辉指出,《生成式人工智能服务管理暂行办法》和《互联网信息服务深度合成管理规定》也为AIGC服务提供者提供了明确的合规指引。广互案中,在AIGC已经明确构成了著作权侵权的情况下,法院要求平台履行法律规定的注意义务,并无不妥。“ 需要注意的是,本案提到的关键词过滤,是停止侵权措施,这意味着并没有要求服务提供者进行事前过滤。”

对合规风险表露出担忧的不止平台。本案中的被告是一个接入了第三方AI工具的企业,但案件之外,生成式人工智能价值链上还有其他角色。基础模型层的开发者使用训练数据、应用端用户使用AI作图……权责又将如何划分?

吴雨辉告诉21世纪经济报道记者,用户获取侵权图片的行为不构成侵权,但是进一步使用侵权图片的行为(如复制或者传播)则有可能构成侵权。开发基础模型的公司有可能因在数据训练阶段未经许可使用权利人作品,而构成复制权侵权。 

梁志文则认为,当版权人起诉AI使用版权作品作为训练数据侵犯其版权时,其不应得到支持。请求AI开发者删除训练数据库里版权作品的诉求,如前文所述,构成合理使用的情况,不能得到支持。

“走到最后,判决应遵循的是著作权法的基本原则――利益平衡。”梁志文表示,在法律解释和适用时需要在版权保护、技术发展和社会公众三方面取得适度平衡,不可偏废。

案件背后不但有法律账,还有经济账。”朱悦进一步指出,根据我国著作权法规定,取证、证据固定等一系列举证工作都应该由提出侵权指控的原告来进行。

事实上,起诉用户并非易事,一方面,用户可能不具备负担赔偿费用的经济实力,另一方面,他们可能面临舆论压力和反噬的风险。“这种情况可能导致案件变得更加复杂,原告方可能更倾向于将用户排除在外,寻求其他更具有经济实力和社会影响力的责任方。”

从原则上看,由于训练数据中可能包含版权内容,模型提供者甚至更上游的主体也有可能是主要的责任方之一。

然而,模型的训练阶段通常依赖于开源数据集,其本身可能存在权利瑕疵,原告面临的举证问题更加复杂;另一方面。此外,从判决结果来看,法院也倾向于不过度强调前端研发的责任,以确保责任分配相对简单,不将合规压力过度施加在模型开发者身上。

理论账、实践账、经济账:争议中的生成式AI服务侵权第一案

“但技术中立原则并非人们所认为的,新技术发展者对可能导致侵权行为的现象无需负责,而有可能承担间接侵权的责任。”梁志文说,对技术提供者版权责任的法律安排应该促进技术提供者与权利人之间的相互合作,既不能使技术提供者成为权利人监控新技术、发展新市场、充当其权利保护的守门人,但也不能让其提供的服务或技术成为盗版者的天堂,或者使其利润建立在以侵权为基础的商业模式上。

“总体来看,其实从业者、用户都无须为此太过忧心。当然,监管侧也需要更全面地考虑整个生态系统的合规性,包括数据集提供者、模型开发者和最终用户之间的关系,以制定更为全面和合理的责任分配方案。”朱悦说。

AI治理,到底该如何推进? 

“生成式人工智能工具对著作权法的理论与实践产生了巨大的影响,本质上将形成新一轮的利益对价。”吴雨辉表示,掌握了技术话语权的人工智能控制者,既然享受了技术进步的红利,便应当承担起更多的注意义务,引领和保障人工智能技术的合规发展。

从ChatGPT到Sora,人工智能产业的变革不会停止。在规则中找寻一条发展之路,或许是当下的最优解。

已经身处人工智能价值链的从业者,如何做好合规?

首先是训练阶段,数据库中版权数据如何处理的问题。“判决不支持删除训练数据的原因是被告为AIGC服务提供者而不是大模型开发者,不涉及模型训练。但是判决并没有直接否定删除训练数据的可能性,在判决中也强调提示词阻断不能完全消除侵权图片的生成。”傅宏宇表示。

不过,他指出,“此前数字内容平台版权保护常用的‘侵权通知-删除’规则并不适用于大模型输出内容的管理。”大模型训练数据规模庞大、来源多样,判断所有数据的版权合规性难度很大,而且大模型版本往往经过多次迭代,模型的使用基本脱离了原始训练数据,删除原始数据的手段并不能解决输出端的版权侵权问题。

模型遗忘可能是一种解法。朱悦向21世纪经济报道记者介绍道,这是当前较为热门的研究领域。通过特殊的技术手段,实现训练数据集中特定数据的删除。“不过,目前这些技术仅限于学术上的探索,绝大部分商业化模型厂商并不能在成熟的产品和服务上使模型忘记学习过的内容。”

而输出阶段,在朱悦看来,广互的案件已经给出了当下相对切实可行的方案。从技术上来看,最简单、最经济的方式就是屏蔽关键字。“建立一个词库,对特定的关键字进行屏蔽,或者结合简单的自然语言处理技术,这种方法比较容易实现。”

AI技术飞速发展,理论和司法实践之间存在区隔,有一定合理性。“AI治理,很大程度上像是一个工程问题,”他说,“在各个不同领域的法律规则都有可能适用的情况下,在多重约束中挣扎得出一个合理、可行的结果,在一段时间内将是很正常的状态。”

法庭之外,围绕着AI版权问题的法律适用和权责划分大讨论还在持续。