当前位置: 主页 > 商界 > 详情
AIGC之问:数据合法使用、平台责任划分成发展关键 如何破题?-天天快报

来源21世纪经济报道   2023-04-27 17:54:02

21世纪经济报道 记者 郑雪 北京报道


(资料图片)

生成式人工智能像火一样,迅速蔓延开来。

当前,生成式人工智能已经成为企业新一轮兵家必争之地,人们寄希望于生成式人工智能成为新的经济增长点,寻求在技术变革中的领先地位。但同时,如火的AIGC也让企业担忧:海量数据为AIGC内容的生成提供了养料,但是数据的权属问题尚未解决,企业或为数据的来源而困扰;同时当前的生成式人工智能多是概率推演,海量AIGC内容如何管理?企业又该承担哪些责任?

近日,由中国人民大学高瓴人工智能学院与中国人民大学国家版权贸易基地主办的AIGC内容生态与版权保护论坛在京举办。相关专家围绕生成式人工智能技术原理以及企业面临的数据侵权、平台责任等问题进行探讨。相关学者、专家在发言时表示,数据问题是当前生成式人工智能发展面临的首要问题,呼吁考虑数据方面的合理使用,而在责任划分和界定方面,不宜施加严格责任和过多义务,为人工智能企业发展留出相应空间。

生成式人工智能是一种新型基础设施

AIGC内容的出现离不开生成式人工智能的发展。以ChatGPT为代表的生成式人工智能无疑是一段时间以来最引人瞩目的事物。短时间内快速完成文章写作、图画创作,以及对于任何问题都能做到及时答复。

腾讯研究院秘书长张钦坤表示,简单来看,生成式人工智能技术可以简单理解为单字接龙游戏,其中概率起关键作用。模型经过大量语料训练之后,就可以弄清楚某个词的概率分布,默认情况下推荐概率最高的词。“在这个过程中,通过人类的引导进行接龙,先取一个问题,生成回答,再对不同的回答从好到坏进行排序,基于这些数据训练一个奖励模型。通过不断的训练,它就会形成刺激和反馈之间的条件反射。”

浙江垦丁律师事务所主任张延来援引人工智能领域技术专家的介绍,ChatGPT的技术路线,在于深度学习、强化学习和符号主义三大主义结合,大数据、大模型、大算力以“共生则关联”原则实现了统计关联关系的挖掘。“当数据量达到一定程度时就会出现涌现的效果,而这种涌现的效果连这些ChatGPT科学家们自己搞不清楚。”

如何理解AIGC背后的这项产生技术?

对外经济贸易大学数字经济与法律创新研究中心执行主任张欣表示,从信息生产模式的变迁来看,从PGC、UGC 一直到今天的AIGC,反映了从人类生产信息到AI生产信息的过程,折射出人类在信息分发和知识生产过程中不断变迁的地位。

“今天AIGC之所以很火是因为其实在知识生成的边际成本当中,把它无限降低,因此就会产生一系列的版权、专利权等问题。”

以ChatGPT为代表的生成式人工智能,不仅是聊天机器人那么简单,或许更多的是生态的建构。

在张欣看来,ChatGPT让科技企业真正焦虑的是:一是把自己API供别人调用,二是开放了自己的插件,插件类似微信小程序、苹果应用商店。“OpenAI在构建自己的人工智能生态帝国。类似于一条高速公路,一旦有了路径依赖,谁能跑、车速如何则由高速公路的所有者来指定。”

赋能企业的基础设施,则是可以预见的生成式人工智能的未来。

中国政法大学数据法治研究院教授张凌寒表示,生成式人工智能的功能远不止于提供信息内容服务,其可以作为“技术基座”给金融、医疗、自动驾驶等多个领域赋能。在产业分层中,首先通过海量数据使生成式人工智能底层大模型“见多识广”,具有强大能力;其次通过“术业有专攻”的专业优化训练,让其适配不同行业和场景;最后再向C端用户直接提供服务应用。由此可见,生成式人工智能未来将成为社会的“技术基础设施”。

数据合法使用,如何解决?

不同于看得见、摸得着的传统基建设施组成材料,数据是生成式人工智能发展的重要饲料和组成部分。以OpenAI发布的GPT语言模型为例,GPT-2模型的参数为15亿,GPT-3.5的参数提升到了1750亿,GPT-4的参数尚未公布,但有人预测会更高。

训练数据是人工智能行业最为重要的环节。OpenAI基于海量数据使得模型出现涌现功能,当前技术上的“大力出奇迹”已经成为国内各个厂商主攻方向。

高质量的训练数据是现阶段的刚需,普遍来说业界存在数据质量不佳、效率低下的情况,尤其中文语料不足是很严重的问题。同时在训练过程中还会产生大量合成数据,用于专业领域的调优,但同时也会面临敏感个人信息的保护问题。

而对于企业来说,数据训练中的合法使用问题成为当前大模型研发过程中亟需解决的产业需求。抖音集团法务部商业化法务总监朱小荔表示,“AI模型开发主体以何种方式、需要承担何种程度的法律义务以获取海量和优质的训练数据,是当前一个核心要解决的产业需求,也是目前所有开发大模型的企业机构共同面临的难题。”

朱小荔解释称,训练数据尤其是大模型的训练数据来源是广泛复杂的,可能包含他人公开发布的作品和公开信息,如果使用作品数据均需要获得每个作者的授权,使用他人公开信息也需要获得每个人的同意,若无高效的数据集许可制度,将为模型的研发者获得合法的训练数据增加巨大成本,限制模型发展。

企业对于大模型数据侵权的担忧已经成为现实。前不久,全球最大的商业图库之一Getty Images在伦敦高等法院和特拉华州地方法院起诉了人工智能公司Stability,认为模型开发者非法复制和处理未经许可的版权图象,损害了内容创作者的利益。

针对数据带来的相关著作权问题,合理使用制度成为一种声音。

目光转向海外,日本、英国、欧盟等已经将数据挖掘作为合理使用的情形进行了立法。日本以“计算机信息分析”的名义规定了文本数据挖掘的著作权例外,欧盟则选择“非科研目的”例外的谨慎方案。

中国人民大学未来法治研究院执行院长张吉豫表示,当前迫在眉睫是要在《著作权法实施条例》或合适法律法规中加入数据挖掘的合理使用条款。“按照著作权国际公约,合理使用制度的‘三步检验法’可用于判断某一著作权使用行为是否构成合理使用的一般原则。再退一步,还可以加一个限制条件,‘两年之后还可以重新评估’。现在在发展初期,并没有明确产业的未来前景情况下,加入到这样一个合理使用的条款是当务之急,也是必要的内容。”

中国版权协会理事长阎晓宏在谈及数据底层挖掘时表示,底层挖掘带来的著作权问题怎样解决?目前指向合理使用,但是合理使用也会导致新的矛盾出现,相关问题还需进一步研究。“按照伯尔尼公约合理使用的‘三步检验法’,使用应当是个别的,流通过程中也是个别,并且不损害权利人的获酬。如果全部合理使用,就是事先不征求许可、事后不支付报酬,利益全部归给底层挖掘的人或机构,也不合理。

平台责任和义务,如何划分?

生成式人工智能的出现,不仅带来的是生态的变革,同时也带来了法律风险、伦理等问题的思考。作为大模型研发的主体,平台企业亦关心在这个过程中,自己扮演何种角色。不止如此,如何监管、怎么监管、责任义务如何清晰合理界定也成为学界、业界关注的焦点。

不久之前,网信办颁布了《意见征求稿》草案,其中第五条规定,利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人(以下称“提供者”),包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等,承担该产品生成内容生产者的责任;涉及个人信息的,承担个人信息处理者的法定责任,履行个人信息保护义务。

“从《意见征求稿》的角度出发,这就意味着一家公司无论是通过自研模型提供服务,还是调用外部模型对用户提供服务,或者面向用户提供API或者SDK服务,所承担的责任是一样的。”在朱小荔看来,根据技术服务提供方在现实中的不同角色,上述规则仍可进一步区分优化。

张欣表示,对AIGC监管的相关问题需要考虑四个方面,一是监管何时介入,需要考虑技术的负外部性导致的风险程度高低;二是监管对象的选择,是选择技术和服务本身,还是考虑背后的风险与法益;三是做到结果型与过程型监管的平衡;四是考虑基础设施打造和监管生态的完善。

发展优先的理念成为多数专家的共识。

张凌寒表示,基础设施是经济社会发展的重要支撑,前期建设需要国家布局规划适度超前发展,后期使用需要强调公共服务的公平性分配,并在此过程中统筹安全与发展。生成式人工智能监管不宜为了服务应用层的信息内容安全,影响其作为基础设施的功能研发,对训练数据、模型开发等施加过多义务。

张吉豫回顾了相应网络内容提供者和网络服务提供者的责任界定,在她看来,分层分类认定原则以及促进发展、鼓励合作的立法导向是非常有意义的基础。“一是不能对相关企业施加严格的责任,对内容提供者适用过错责任原则,从而达到各方利益平衡,特别通过技术措施、管理措施的一些创新来去解决。二是技术中立也不能够完全适用。技术是被不断改进、集成和完善,也可以在法律和社会伦理要求下进行相应的改进。”