背景
2023年4月11日,国家互联网信息办公室(“国家网信办”)发布《生成式人工智能服务管理办法(征求意见稿)》(“《管理办法》”)并向社会公开征求意见。意见反馈截止时间为2023年5月10日。
《管理办法》的发布将国内关于AIGC的讨论推至新的高度。AIGC, 全称是Artificial Intelligence Generated Content,人工智能生成内容,意为被认为是“利用人工智能技术自动生成内容的新型生产方式”[1]。《管理办法》将生成式人工智能定义为“基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术”,可以认为正是AIGC的内涵所在。
自2022年年底,AIGC成为世界范围内热议的话题。在此期间,国外OpenAI 发布多模态预训练大模型 GPT-4,在识图能力、文字输入限制、回答准确性、内容风格变化等方面较之此前发布的ChatGPT显著提升;国内方面,今年年初,百度发布“文心一言”,复旦大学团队发布国内首个类 ChatGPT 模型 MOSS。面对AIGC产品和服务的快速发展,中美欧等国内外主要监管部门却一致表达出对其数据合规和内容安全等方面的担忧。以欧盟为例,意大利、西班牙、法国等国数据保护局均已宣布或考虑以个人信息保护规则为主要依据对ChatGPT进行调查监管,欧洲数据保护委员会(EDPB)表示,正在成立特别工作组,帮助欧盟各国应对广受欢迎的人工智能聊天机器人ChatGPT,促进欧盟各国之间的合作,并就数据保护机构可能采取的执法行动交换信息。[2] 除执法动向外,欧盟立法者还拟通过在《人工智能法案》中加入针对ChatGPT等高级人工智能工具的条款以规范人工智能技术的发展。[3] 在国内,中国支付清算协会2023年4月10日发布《关于支付行业从业人员谨慎使用ChatGPT等工具的倡议》,提示支付行业从业人员全面评估使用ChatGPT等工具处理工作内容的风险,要求遵守国家及行业相关法律法规要求,不得上传国家及金融行业涉密文件及数据、本公司非公开的材料及数据、客户资料、支付清算基础设施或系统的核心代码等。[4]
在此背景下,国家网信办发布《管理办法》,意在对面向我国境内公众提供生成式人工智能相关服务的活动做出规范。这既表明中国对于AI、算法等新技术对互联网生态影响的持续性关注(此前推出了算法推荐和深度合成内容监管规定)以及国家网信办作为互联网内容监管部门的职责延续,也体现出在全球AI监管的浪潮中,中国在促进AIGC健康发展和规范应用方面积极参与、共同探索的姿态。
《管理办法》的适用范围
《管理办法》第二条规定,研发、利用生成式人工智能产品,面向我国境内公众提供服务的,适用本办法。《管理办法》的立法方式与欧盟《通用数据保护条例》(GDPR)和我国《个人信息保护法》相似,一方面,遵守属地原则,位于我国境内的AIGC产品和服务提供商自然落入监管范围,另一方面,遵循效果原则,如果境外服务提供商(例如OpenAI)面向我国境内公众提供服务,可能影响我国境内公众合法权益的,也将落入《管理办法》的规制范围,这一适用原则承继了上位法《个人信息保护法》以权利影响效果为标准的域外管辖权模式。近期国内许多用户反映GPT的账号被封禁[5]表明, OpenAI可能已在提前为避免落入我国AIGC及其上位法更广泛的监管范围做出准备。
主要内容
作为我国首部关于AIGC的专门规定,《管理办法》要求,提供生成式人工智能产品或服务应当满足安全评估与算法备案、算法可解释性、标识、数据合规、用户实名认证、防止沉迷、个人信息和隐私保护、内容监管、责任承担等多个方面的合规要求。
在《管理办法》之前,我国已分别于2021年12月和2022年11月发布《互联网信息服务算法推荐管理规定》(“《算法推荐规定》”)和《互联网信息服务深度合成管理规定》(“《深度合成规定》”),对算法推荐和元宇宙场景下人工智能新技术的监管做出规定。由于在适用对象和上位法依据上,互联网信息服务算法推荐、互联网信息服务深度合成和生成式人工智能等具有一定的交叉(见下图),使得三部规定在内容上也存在一定的交叉和衔接,因此本文在以《管理办法》的内容作为基准,对三项规定中的相关内容进行比较并提出了有待进一步明确的问题,供读者参阅和思考(请点击这里下载阅览)。
本文以下部分将主要从训练数据合法合规、用户数据安全和个人信息保护、内容监管和不合规内容处理、全生命周期服务保障、责任承担等五个方面重点分析生成式人工智能产品和服务提供者的合规义务。
(1) 训练数据合法合规
《管理办法》第七条规定,提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。用于生成式人工智能产品的预训练、优化训练数据,应满足以下要求:(一)符合《网络安全法》等法律法规的要求;(二)不含有侵犯知识产权的内容;(三)数据包含个人信息的,应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形;(四)能够保证数据的真实性、准确性、客观性、多样性;(五)国家网信部门关于生成式人工智能服务的其他监管要求。
该条就AIGC训练数据[6]可能存在的多方面问题作出回应。以《华盛顿邮报》[7]近日发表与艾伦人工智能研究院(Allen Institute for AI)合作进行的对谷歌C4数据集[8]的调查为例,该调查结果显示,谷歌C4数据集的部分数据来自已被美国政府查封的侵权网站、公开的个人数据库网站、或者涉及色情网站、宣扬种族主义的网站等。该报道表示,尽管OpenAI尚未披露ChatGPT中所使用的数据集情况,然而仅就GPT-3的训练数据而言,根据OpenAI 2020年公布的数据,其已高达谷歌C4网络抓取数据量的40倍。还有业内专家表示,因为担心发现存在个人信息、受知识产权保护的材料以及未经授权的其他数据,许多公司即使在内部都不会记录训练数据的来源。为了防范此类不良信息、规范训练数据合规性,《管理办法》要求这些用于训练生成式人工智能产品的数据满足来源合法性、不侵犯知识产权、不侵害个人信息权益、保证数据真实、准确、客观、多样的多方面的要求。
训练数据的海量决定AIGC产品研发离不开数据标注。对此,《管理办法》第八条规定,如果生成式人工智能产品研制中采用人工标注,提供者应当制定清晰、具体、可操作的标注规则,对标注人员进行必要培训,抽样核验标注内容的正确性。
此外,由于训练数据、人工标注相关情况对于获取用户信任、改变用户选择具有重要影响,《管理办法》第十七条要求,提供者应当根据国家网信部门和有关主管部门的要求,提供包括预训练和优化训练数据的来源、规模、类型、质量等描述,人工标注规则,人工标注数据的规模和类型,基础算法和技术体系等相关信息。该条并未明确信息提供的对象是国家网信部门和有关主管部门、还是用户及社会公众,由于该等信息属于可以影响用户信任和选择的必要信息,其目的在于打破技术信息不对称、保障用户知情权,因此,我们倾向于认为信息披露的对象既包括监管部门也包括社会公众(如通过隐私政策和/或产品说明),当然披露的广度和深度可能会有所差异,具体做何种解释仍有待监管部门后续进一步明确。
(2) 用户数据安全和个人信息保护
《管理办法》从用户数据安全和个人信息保护两个方面对AIGC服务提供者做出要求。
关于用户数据安全,提供者在提供服务过程中,应当对用户的输入信息和使用记录承担保护义务。近期,三星员工使用ChatGPT导致公司机密资料泄露引发关注[9]。为避免发生此类信息泄露,亚马逊、微软等多家科技巨头提醒员工不得向ChatGPT泄露敏感信息;美国、日本多家银行已限制或禁止使用ChatGPT等AI聊天机器人。
关于用户个人信息保护,个人信息保护已成为不容忽视的合规问题。以文首提到的欧盟多个国家和EDPB为例,其已开展和拟开展的ChatGPT相关调查监管即与用户个人信息保护紧密相关。3月20日,OpenAI因开源数据库存在的错误导致缓存出现问题,一些用户可能看到其他人聊天记录的片段,以及其他用户信用卡的最后四位数字、到期日期、姓名、电子邮件地址和付款地址等信息。[10] 用户在使用AIGC产品过程中,除了向服务提供商提供注册登录、支付卡号等个人信息外,其在使用AIGC产品和服务过程中的输入信息和使用记录都可能包含或者构成个人信息。而这些输入信息和使用记录很可能被用于AIGC产品的进一步训练,例如ChatGPT使用指南已明确说明,输入ChatGPT聊天框的文本内容会被用于进一步训练模型。因此,保护用户使用AIGC产品过程中的个人信息和隐私至关重要。基于此,《管理办法》规定禁止非法获取、披露、利用个人信息和隐私,不得非法留存能够推断出用户身份的输入信息,不得根据用户输入信息和使用情况进行画像,不得向他人提供用户输入信息。
除了规定不得非法获取、披露、利用个人信息和隐私外,《管理规定》还要求提供者建立用户投诉接收处理机制,该机制解决的重要问题之一就是及时处置个人关于更正、删除、屏蔽其个人信息的请求。然而,尽管有此项规定,对于已经纳入AIGC产品训练的个人信息而言,个人如何行使更正、删除、屏蔽其个人信息请求在实践中似乎仍是一个难点。
(3) 内容监管和不合规内容处理
《管理办法》规定,提供生成式人工智能产品或服务应当遵守法律法规的要求,尊重社会公德、公序良俗,并符合以下相关要求:
AIGC产品相关内容合规问题引发担忧。近日,非营利组织人工智能与数字政策中心(CAIDP)向美国联邦贸易委员会(FTC)投诉,要求FTC调查OpenAI 违反消费者保护规则的行为。该组织认为GPT-4具有“偏见性、欺骗性、对隐私和公共安全构成风险”。CAIDP认为,OpenAI违反了FTC对人工智能产品的指导,并违反了FTC法案第5条,该法案禁止不公平和欺骗性的商业行为。CAIDP 敦促FTC对OpenAI进行调查,并暂停其大型语言模型的商业部署,包括ChatGPT的最新版本。[11]
为防范以上不合规内容出现,《管理办法》要求提供者:
按照《深度合成规定》对生成的图片、视频等内容进行标识,向公众进行提示。
建立用户投诉接收处理机制,及时处置个人关于更正、删除、屏蔽其个人信息的请求;发现、知悉生成的文本、图片、声音、视频等侵害他人肖像权、名誉权、个人隐私、商业秘密,或者不符合本办法要求时,应当采取措施,停止生成,防止危害持续。
对于运行中发现、用户举报的不符合本办法要求的生成内容,除采取内容过滤等措施外,应在3个月内通过模型优化训练等方式防止再次生成。
(4) 全生命周期服务保障
我国《网络安全法》规定,网络产品、服务的提供者应当为其产品、服务持续提供安全维护;在规定或者当事人约定的期限内,不得终止提供安全维护。作为《网络安全法》的下位法,《管理办法》也对AIGC产品和服务提供者提出了保障用户全生命周期正常使用的服务原则。考虑到AIGC作为新技术涉及多方面合规要求,《管理办法》要求提供者在促进用户的合法合规使用方面发挥指导作用,并在用户利用生成式人工智能产品过程中存在违反法律法规,违背商业道德、社会公德的行为时暂停或终止为其提供服务。
(5) 责任承担
《管理办法》第五条规定,利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人(“提供者”),包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等,承担该产品生成内容生产者的责任;涉及个人信息的,承担个人信息处理者的法定责任,履行个人信息保护义务。该条规定中涉及服务提供者和服务使用者两方主体之间的关系可如下图所示:
从服务使用场景来说,提供者通过向使用者提供可编程接口等方式提供AIGC产品和服务,由使用者根据自身需求,在AIGC产品中输入对应指令,自行生成所需的文本、图像和声音。仅就该等使用场景来说,使用者可能会被认为是相关内容(文本、图像和声音)的生成者以及个人信息(如涉及)的使用者,而提供者仅是接受使用者委托、提供工具的受委托处理者。根据此种理解,《管理办法》要求提供者承担该产品生成内容生产者以及个人信息处理者的责任,似乎有所不妥。
然而,上述判断方法应用在生成式人工智能领域应当再行斟酌。虽然使用者系基于自身需求使用AIGC产品并将生成的内容用于特定目的,但是,考虑到AIGC产品并非简单工具,而是精心设计、经过大量训练编制完成的算法,使用者使用AIGC产品得到的结果事实上可以理解为在已经形成既定规则的程序中输入特定指令、得到对应结果的过程。因此,对提供者课以更高的合规义务、要求其承担该产品生成内容生产者的责任存在一定的合理性。因此,生产者和使用者责任的边界划在哪里,还需根据AIGC产品设计和使用的实际,检视二者谁对结果生成具有更多掌控。
此外,对于AIGC产品涉及个人信息的情况,其个人信息保护责任承担亦应分情况予以分析。
情形1:AIGC产品中本身涉及个人信息(例如训练数据包含个人信息),且使用者在使用中得到了包含他人个人信息的文本、图像和声音,那么提供者作为个人信息处理者履行个人信息保护义务属于应有之义。此时,使用者作为该等个人信息的接收方,实际上也是个人信息的处理者,同样应当履行对应的个人信息保护义务。
情形2:如使用者录入AIGC产品内的个人信息的,一方面,使用者可能作为该等个人信息的处理者或受委托处理个人信息一方应当履行相应个人信息保护义务,另一方面,提供者如未落实过滤程序,而将这些个人信息纳入训练数据范围,则在另一个层面决定了个人信息的处理目的和方法,亦应视为个人信息处理者履行对应的个人信息保护义务,无合法性依据处理个人信息的,应承担相应法律责任。
《深度合成规定》就上述两种情况做出了明确规定。《深度合成规定》第十四条规定,深度合成服务提供者和技术支持者应当加强训练数据管理,采取必要措施保障训练数据安全;训练数据包含个人信息的,应当遵守个人信息保护的有关规定。深度合成服务提供者和技术支持者提供人脸、人声等生物识别信息编辑功能的,应当提示深度合成服务使用者依法告知被编辑的个人,并取得其单独同意。《管理办法》规定提供者应对用户使用生成式人工智能生成的内容提供指导,亦是对上述内容的体现与衔接。
法律责任
《管理办法》第二十条规定,提供者违反《管理办法》将由网信部门和有关主管部门依法予以处罚。相关法律责任如下:
对于法律、行政法规有明确规定的,《管理办法》规定,适用《网络安全法》《数据安全法》《个人信息保护法》的处罚标准。三部法律中,《数据安全法》[12]和《个人信息保护法》[13]规定了较高的法律责任,在这二者中又以《个人信息保护法》的最高可处五千万元或者上一年度营业额百分之五的罚款成为企业开展经营活动的合规利剑。
相对而言,《网络安全法》第五十九条规定,网络运营者不履行网络安全保护义务的,由有关主管部门责令改正,给予警告;拒不改正或者导致危害网络安全等后果的,处一万元以上十万元以下罚款,对直接负责的主管人员处五千元以上五万元以下罚款。由此可以看出在法律、行政法规没有规定的情况下,《管理办法》主要依照《网络安全法》的标准予以处罚。应当注意的是,目前《网络安全法》正处于修改阶段且根据公开征求意见的修订草案,提高罚则、提振威慑是其修改的主要内容,因此不排除这部分法律责任亦将根据《网络安全法》的修改予以调整。
结语
值得指出的是,《管理办法》第三条规定国家支持人工智能算法、框架等基础技术的自主创新、推广应用、国际合作,鼓励优先采用安全可信的软件、工具、计算和数据资源。事实上,我国自2017年发布《新一代人工智能发展规划》以来,始终强调抢抓人工智能发展的重大战略机遇、构筑我国人工智能发展的先发优势、加快建设创新型国家和世界科技强国。近些年,随着人工智能算法不断迭代,人工智能技术发展已步入快车道。然而,由于关键技术不够完全成熟,其大规模推广落地仍然面对多项痛点、难点问题,甚至有声音呼吁人工智能实验室立即暂停人工智能系统训练。[14] 据此,《管理办法》的发布,体现出我国在重视人工智能技术发展的同时,平衡安全关切的坚定立场和态度。
《管理办法》是我国生成式人工智能监管的有益探索。但由于生成式人工智能技术的复杂性,涉及合规要点众多,《管理办法》中的相关法律概念和义务边界亟待进一步明确。一方面,部分合规要求与现已生效施行的《算法推荐规定》《深度合成规定》有所交叉,相关法律概念和义务履行有待监管部门的进一步澄清。另一方面,近日,科学技术部发布《科技伦理审查办法(试行)》(征求意见稿),规定开展科技活动应客观评估和审慎对待不确定性和技术应用风险,并将涉及使用个人信息的科技活动纳入应依法进行科技伦理审查的范围。研发、利用生成式人工智能产品是否落入科技伦理审查的范围,也有待后续监管部门的进一步明确。
安全和发展是数字经济的两大重要课题。在以安全作为基石的同时,亦不应忽视包括生成式人工智能在内的数字技术带来的巨大便利。正是为了应对数字技术带来的深刻变革,统筹推进数字中国、数字经济、数字社会规划和建设,今年3月,我国正式组建国家数据局,在AI/算法/数据产业化日新月异的当下,相信国家数据局的组建也将为政策界面格局和产业发展提供新的助力。
(本文首发于LexisNexis《中国法律透视》4月刊)