小
中
大
摘要:以计算机软件和大数据为支撑的文本数据挖掘技术已成为数字时代各行各业智能化发展的基础工具。文本数据挖掘首先需要收集、复制海量数据或作品等受著作权法保护的信息建立数据库。为学术研究目的而复制他人作品进行文本数据挖掘,在越来越多的法域被视为合理使用。我国著作权立法中应尽快确立以论文查重为代表的文本数据挖掘合理使用规则,以消除学术领域新技术应用的侵权风险。具体说,可以在著作权法配套法规中明确,为教育和科研目的,可以复制他人作品,但不得公开发行和传播。
关键词:文本数据挖掘合理使用;论文查重;我国著作权立法
在知识和信息大爆炸的数字时代,仅由人脑对知识和数据信息进行搜寻、整理、学习、记忆、统计、分析、处理和应用越来越困难,同时知识和信息也无时不刻以数据形式产生和存储;因此,不仅产业升级转型离不开人工智能技术和大数据资源的利用,传统社会中的很多学习、研究、管理和组织活动也需要技术辅助判断、预测和决策。数字技术的开发和运用成为人们适应时代剧变的必然选择,其中,利用计算机软件技术对海量作品、数据等内容进行统计和分析,以得出有用信息的文本数据挖掘(Text & data mining,简称TDM),已成为智能社会推动产业和科技文化发展的基础工具。
一、文本数据挖掘的复合功能及其著作权侵权风险
TDM是数据库的伴生物,在信息时代具有多重应用价值,其本质是利用人工智能算法调取存储于数据库中的文本或各种智能设备产生的数据,通过比对或重组信息资源发现其隐含的模型、趋势或与某一设定目标的相关性。精心设计的TDM不但具有广泛的商业用途,也同样为非营利单位和人员节省了大量搜集、存储、统计、分析资料的时间,极大地提高科学研究和管理决策的效率。
(一)依托数据库开发的TDM应用具有商业性
基于数据库建设、采用“知识付费”模式提供信息服务的TDM显然具有商业用途,典型应用场景包括辅助开发新技术、提炼商业信息、推送个性化娱乐资讯内容等。例如,生产经营者可以利用实时数据分析使智能家居等产品或智慧健康等服务更加灵敏和精准便捷,电商平台的商家可以通过搜集统计用户评价并据此有针对性地改善产品或服务,文娱资讯产业经营者也可通过历史记录预测用户喜好、推送关联信息内容或直接提供AI定制文创产品。对于建立此类数据库和开发TDM应用的主体来说,为营利目的大量复制他人受著作权法保护的作品等内容,应遵循传统的授权许可模式。[1]
新世纪以来,围绕“数字图书馆”复制使用受保护作品是否需要事先授权的问题,我国互联网产业界与原创内容产业博弈激烈;主要原因就在于这类“数字图书馆”中的相当一部分事实上属于有偿数据信息服务的提供者,而并非公益性图书馆等公共文化服务机构,[2]而且其提供的信息是被复制的作品等内容本身,因此,我国的著作权立法一直能未明确与商业数据库及其利用相关的权利限制与例外规则。换言之,商业数据库经营者将受保护的作品等内容数字化并纳入在线数据库向用户提供阅览、欣赏和下载时,应事先获得权利人的授权。已有司法实践表明,凡是以“数字图书馆”为名、未经许可扫描他人作品并提供在线使用的行为,均被判定为侵权;当然,司法者也发现了“传统型图书馆的数字化与数字化的非传统型图书馆”二者在著作权侵权与否及责任承担方面应当区别对待,遗憾的是立法上尚未给出可以灵活解释的规则。[3]
(二)依托数据库开发的TDM应用可以具有公益性
我国在著作权立法传统上对合理使用制度,采取的是类似欧洲各国明确列举具体情形的方式,适用的主体是个人、政府、新闻单位、教学研究及图书馆等公共文化机构;且在这些非营利性目的合理使用的规定中,[4]均有严格的数量、范围和使用方式等限制。近年来,在线图书馆、网上展览馆博物馆、智慧城市建设等新兴事物发展迅速,我国著作权法立法显然需要充分考虑到信息时代此类非营利性活动也离不开数据库建设和TDM应用的趋势。[5] TDM需要对大量数据、包括受保护作品等信息进行复制,而海量的作品信息及其庞杂来源使得数据库制作者(通常也是TDM技术开发者)逐一核查权利状态并取得授权成本高昂。本质上说,为TDM目的而复制并不是为了提供作品本身,非营利性使用对权利人的合法利益并不构成冲击。基于TDM在数字时代已成为开展学术活动必不可少的工具,有必要考察如何消除其TDM的著作权侵权风险、以保障和推动教育科研公共事业的发展。
从域外经验看,欧盟2019年通过的单一数字市场版权及相关权指令,将非营利性科研、文化遗产机构为科学研究为目的进行TDM而复制与提取合法获得的作品等资料的行为视为合理使用,权利人不得通过授权条款排除使用;其他主体如果基于教学目的而以数字和跨境方式使用作品等资料,只要采取适当措施确保这种利用仅限于机构内的学生或成员、并注明出处且权利人可以选择退出,也不视为侵权。[6]美国版权法第107条关于合理使用判定的“四要素”没有限定适用主体,在实践中则通过判例来解释规则。例如,谷歌公司在实施“谷歌图书计划”时扫描了海量图书,因未经许可的复制引发了侵权纠纷;在与作家协会多年的诉讼过程中,谷歌不断调整其庞大图书数据库的信息服务方式,最终法院判定其扫描作品到数据库中、但仅在网页搜索结果上显示片段内容以便研究人员为学术目的使用的TDM行为属于转化性合理使用。[7]沿袭欧洲大陆成文法传统的日本,在2018年修改著作权法时增加了确认“用于信息情报分析的复制”属于“非欣赏性”使用侵权例外的30-4(ii)等条款,但适用条件却相对宽泛,使用对象不限于合法获取的资料、使用方式也涵盖了商业目的。[8]
我国著作权领域因数据库及TDM应用相关规则不明、滞后于数字技术发展的现状,突出反映在近期我国知网(CNKI)引发的相关法律争议中。
二、CNKI论文查重系统近期引发的法律争议
(一)论文查重是学术管理的技术手段
我国很早就在教育、科技领域相关立法中明确了诚信原则,[9]且不断强化和细化相关规定,强调学风建设和惩治学术不端行为,[10]并陆续颁发了相关文件、指南。[11]学术管理方面,学位论文评审工作一直由教育部统筹负责,近期国家确定了由我国科技部、我国社科院分别统筹管理自然科学和社会科学的科研诚信建设。[12]为执行相关法律和政策,高校、研究机构等学术单位和教育科研诚信管理部门,在学位授予、期刊发表、报告提交、职称评定等各个环节均对学术成果进行检测和评价,以确保其创新性和原创性,实现相关立法及各种配套规范中强调的提高人才培养质量、加强学术道德建设的要求。
抄袭即剽窃,是一种照抄他人的作品或其实质性部分、作为自己的提交或发表的侵害著作权行为[13]。在以学术成果是否合格为考核指标的教育和科研活动中,抄袭是公认的违背学术道德和科研诚信、应承担相应后果的行为。[14]实践中,鉴于已发表的论文等作品材料数量庞大,由评审专家人工判断是否抄袭或剽窃越来越难以执行,作为大多数学术机构审查学术不端的辅助技术手段,“论文查重”在我国应运而生。论文查重是利用计算机软件技术查询、检测、记录论文等学术成果与已经发表的论文等对比材料之间的重复率,据此判定该成果是否存在抄袭及其原创程度的一种方法。尽管算法的科学性周延性有时会受到质疑、人工复核程序也不时启动,但智能化的论文查重系统几乎已成为所有学术机构和管理部门发现并制止学术不端行为的必备工具。
(二)中国知网是目前我国学界公认的权威论文查重系统
论文查重是个系统工程,既需要算法功能强大的计算机软件和相匹配的服务器、云计算平台等硬件环境,也需要全面收录报纸期刊、硕博学位论文及图书等已有成果建立的查重数据库。尽管国内外有诸多在线文献数查重软件,在我国最具代表性和权威性的是中国知网(CNKI)查重系统;[15]这是因为论文查重离不开数据库,而数据库建设需要极大的投入,单个学术机构难以完成,因此转而通过购买专业数据库及其查重服务的方式。目前,CNKI收录的文献总量超过2亿篇,[16]是国内最大学术文献数据库,其查重系统也被各学术机构同时采用;因该查重系统仅对学术机构开放,个人需求只能通过电商平台购买机构账号使用权的违规方式实现,不但花钱而且可能花冤枉钱,可谓乱象丛生。[17]
CNKI是数字学术资源集成商,巨大的成本投入和经营规模决定了其采取市场化运作方式、通过知识产品和服务获利。我国的高校毕业生每年数量达近千万,另外还有大量教学科研人员的期刊发表、课题结项、图书出版等需要进行成果检测,应该说,我国的论文查重服务市场需求巨大。问题在于,个人为避免科研诚信出现问题而自发产生的市场需求,与学术机构及国家教育科研诚信主管部门履行公共管理职能的需求怎么区分?近期CNKI相关争议反映出目前各界对这一问题的认识还需要进一步理清。
(三)CNKI近期引起关注的著作权和垄断争议
作为商业主体,CNKI在数据库建设过程中为了避免著作权侵权风险,尽量采取了事先取得授权的模式,但其海量学术资源中仍有很多著作权状况不清晰,因为CNKI是与高校和报刊杂志社、而不是与作者本人签订合同。实践中,学生办理毕业手续时须签字确认同意论文电子版被有关数据库收录,作者投稿时须默认期刊杂志上关于全文将被有关数据库收录的声明;但这种方式是否意味着CNKI可以根据与高校或期刊报社的合同获得单篇论文的数字化复制权和信息网络传播权许可,在理论上是存疑的。我国《民法典》第497、498条对格式条款及其解释原则做出了有利于被动接受一方的规定;司法实践中,法院也通常会据此做出有利于权利人的裁判。例如,在赵德馨一案中,法院认为,《著作权法》第33条第2款规定的报刊转载法定许可制度并不适用于网络环境,CNKI也未提交证据证明作者曾向刊文单位进行信息网络传播权授权,故不支持CNKI称涉案文章有合法来源的主张。[18]理论界多数观点也认为,CNKI在硕博学位论文和期刊论文两大文献来源方面均存在问题。[19]
除了著作权侵权,有关CNKI的争议还包括被指涉嫌垄断。CNKI数据库开发时的最初定位是“国家知识基础设施”,即教育科研的基本工具,但因此类知识数据库及其查重应用供给单一,引起了CNKI对学生和科研单位收取高额费用、限制公众学术创新活动的垄断争议。[20]对此,2022年4月25日,国家市场监督管理总局表示正在依法开展相关工作。[21]
三、我国著作权立法体系及合理使用制度的构造
从立法模式看,大多数国家的著作权立法将具体的制度规范尽量纳入法律中,条文规定比较详细,多则上千条(例如美国)、少则上百条(例如日本、巴西),多为200条左右(例如欧洲各国、澳大利亚、新加坡、埃及等)。不过,我国的模式稍有不同,《著作权法》仅有67条(2020年11月11日修改之前是61条),条文篇幅明显简短、精炼;这是因为我国著作权法立法采取的是“基本法律+配套法规”的组合模式,即在《著作权法》中以条款指示“法律、行政法规规定的其他情形”“由国务院另行规定”的方式表述,涉及的更详细具体的规则、措施由配套法规和规章来构建。事实上,我国著作权立法体系的全貌是“1+5”架构,即以《著作权法》为基干,再加上《著作权法实施条例》《计算机软件保护条例》《著作权集体管理条例》《信息网络传播权保护条例》以及拟制定的《民间文学艺术作品的保护条例》作为配套行政法规。
著作权限制与例外,学理上也称“合理使用”[22],是各国著作权法上十分重要的利益平衡机制,也是我国《著作权法》2020年修订的主要关注点之一;最终的立法文本在引入《伯尔尼公约》“三步检验法”表述[23]的同时,在旧法列举的12项具体情形之外,增加了“法律、行政法规规定的其他情形”的链接式规定。这意味着,若有应当视为合理使用的新情形出现,需要经由立法程序以法律、法规予以明确,而不是交由司法者个案判定。学界对此多有批评,因为此次修法在权利客体、权利内容、技术保护措施、侵权责任等都做了诸多应对数字时代发展的修改,强化了对权利人的保护,赋予了司法机关足够的法律解释空间;但在作为权利人和公众之间利益平衡机制的合理使用制度上,立法却没有建立起同样可以灵活适用的弹性裁量规则。这样,对于实践中已有一定共识、国外也有相关立法或司法经验可借鉴的应视为合理使用情形,在我国须尽快通过法律、法规做出规定,以维系权利人与公共利益的平衡;例如,视听作品、录音录像制品制作中作为背景的瞬间偶然呈现或附带性使用,为教育科学研究进行TDM而复制,群众自发性娱乐活动中的免费表演等。
从我国的立法程序规定和著作权领域的立法体系看,以《著作权法》配套法规对合理使用情形加以明确是最便捷有效的做法。以TDM侵权例外为例,可尽快将其纳入目前我国正在修改的《著作权法实施条例》。当然,同样是TDM合理使用,各国的立法例或判例不尽相同,这与国情差异相关;适应我国国情的TDM合理使用规则个案中如何适用,是司法实践中需要阐释的问题。
四、我国著作权立法中数据挖掘侵权例外规则的构建
(一)仅限于为学术目的而复制
TDM本身是一种创新成果、且有着越来越广泛的用途,但其算法的执行首先需要获取海量受保护资料,才能上传至云计算平台进行解析、加工和呈现、传输结果,这一过程如果未经许可使用他人作品,涉嫌侵犯复制、演绎、信息网络传播等权利;如果TDM运营者与数据库建设者不是同一主体或无关联,未经许可抓取他人数据库中的海量内容使用还涉嫌进行不正当竞争。鉴于TDM应用今后能为商业主体创造市场价值,例如能够“作诗、作曲、作画”的人工智能软件或各种名目的“智能机器人”设备,开发目的是作为文化娱乐产品营销而并非为了学术活动,其使用大量受保护作品来产生AI生成物的行为就不应适用著作权侵权例外;这种虽然没有直接提供他人作品内容、但仍利用了他人作品信息来营利的行为,权利人和使用人双方如何达成利益分享合意应交由市场解决,而不是以著作权法上平衡公共利益与权利人利益的合理使用制度来强制规范。易言之,TDM合理使用应仅限于非营利性的教育和科研领域,以保障数字时代的学术活动这一社会公共事业能够与时俱进地开展。除了查重,TDM在学术上的典型应用还包括各学科与人工智能的交融[24]和“数字人文”新范式,[25]这种以TDM开展科研活动的趋势,需要以各种各样与之匹配的知识数据库为基础,合理使用制度能够消除其著作权侵权风险,有助于推动教育科学研究。
(二)使用方式不延及被复制作品的后续传播
作为侵权例外,须明确TDM使用作品的具体方式。我国在近期修改《著作权法实施条例》增设侵权例外条款、允许为学术目的而复制他人作品以便执行TDM时,需要明确所复制的作品只能用于执行TDM本身;如果用于后续的营利性活动,例如将数据库中的作品有偿提供全文浏览和下载,则属于需要另行获得权利人许可的复制发行和网络传播行为。在前述谷歌案中,图书搜索方式最终仅限于学术目的、且公众只能免费浏览文献片段,这种“转化性使用”之所以被判定为合理使用,是因为其与纸书时代权利人普遍容忍的读者在图书馆或书店的翻阅类似;若整本提供图书复制件,必然难以摆脱侵权责任。
(三)开发和执行TDM的主体不必须是学术机构
结合国情和域外经验,具体执行TDM主体和复制资料的来源可不作严格限制,但使用目的和方式需明确为教育科研等学术活动。例如,CNKI已建成我国最大的学术资源数据库,再由学术管理部门和各学术机构另起炉灶建设用于查重的知识数据库需要极大财政投入。因此,仅就论文查重这样的TDM应用而言,在著作权立法上确立为教育科研目的执行TDM而复制他人作品属于合理使用后,学术主管部门和各学术机构可以继续使用CNKI查重系统;因该系统所需的数据库开发、算法准确和权威性的维护需要相当多的成本,各学术机构应向CNKI经营者支付一定的使用费以弥补,但支付标准应当像公共交通等基础设施一样,由主管部门给予指导并予以公布、而不是由CNKI自行定价。当然,这一使用费也可打包计算在学术机构购买CNKI数据库服务的费用中。对于教育和科研人员的需求而言,学术机构购买的查重服务已经涵盖了为个人提供的免费检测的合理次数,因此超出之外的应由个体按收费标准自己买单。
综上,我国著作权立法亟需设立TDM侵权例外以适应数字技术的发展,本文提出该例外制度的构建路径及具体规则如下:
1、在我国的《著作权法实施条例》中增加TDM例外的规定,具体可以在第X条中明确:“下列情形,属于著作权法第二十四条第(十三)项规定的‘其他情形’:……(x)为教育和科学研究目的,复制已经发表的作品并提取相关数据信息进行统计分析,但不得将复制的作品公开发行和传播……”。
2、实践中通过司法解释和个案判定TDM合理使用的适用条件
1)不强调适用主体必须是非营利性教育科研和公共文化机构,商业主体为学术目的也可复制作品用于TDM,但仅就此收取合理的使用费。
2)权利人不得在作品授权合同中以格式条款或声明,或者采取技术措施等方式排除TDM合理使用,以免该制度沦为摆设。
3)明确为TDM合理使用而复制使用他人作品仅限于非营利性教育科研目的,不包括广义的开发新产品或方法的商业性研发活动。
4)使用方式仅限于复制作品以便提取信息进行统计分析,不得延伸到将复制的作品出版发行或通过各种方式公开传播。
【注释】
[1]此类数据库也涉及个人信息和数据财产保护问题,本文对此不展开讨论。
[2]参见郑成思:《图书馆、网络服务商、网络盗版与“利益平衡”——我国社科院七位学者维权实践的理论贡献》,载《社会科学管理与评论》2005年第3期,第81-86页。
[3]参见赵静:《从司法审判看我国数字图书馆建设中的著作权法律适用问题》,载《科技与法律》2005年第3期,第78-84页。
[4]参见我国《著作权法》第24条(六)(七)(八)项,《信息网络传播权保护条例》第6、7条。
[5]当然,问题不仅存在于著作权领域,个人信息的使用同样需要建立相关规则。
[6]See European Union: Directive (EU) 2019/790 of the European Parliament and of the Council of 17 April 2019 on copyright and related rights in the Digital Single Market and amending Directives 96/9/EC and 2001/29/EC, Article 2, 3, 4.
[7] See Authors Guild, Inc. v. Google Inc., 804 F.3d 202 (2d Cir. 2015).
[8]See Tatsuhiro Ueno:The Flexible Copyright Exception for “Non-Enjoyment” Purposes ‒ Recent Amendment in Japan and Its Implication,GRUR International(《欧盟及国际知识产权法》杂志), Volume 70, Issue 2, February 2021, Pages 145–152.
[9]例如,《中华人民共和国学位条例》(1980年2月12日通过)第17条;《中华人民共和国科技进步法》(1993年7月2日通过)第60条;《中华人民共和国高等教育法》(1998年8月29日通过)第42条(2015年该法修改时专门明确了学术事项的范围,其中第四项即调查、认定学术不端行为)。
[10]学术不端行为指违反公认的学术准则、违背学术诚信的行为,如剽窃、抄袭、侵占他人学术成果等,参见2016年9月1日起施行的教育部《高等学校预防与处理学术不端行为办法》第2条、27条。
[11]例如1999 年《关于科技工作者行为准则的若干意见》,2002 年《关于加强学术道德建设的若干意见 》, 2004 年《高等学校哲学社会科学研究学术规范(试行)》。
[12]参见2018年5月中共中央办公厅、国务院办公厅印发的《关于进一步加强科研诚信建设的若干意见》。
[13]参见《中华人民共和国著作权法》(2020年11月11日修改)第52条:有下列侵权行为的,应当根据情况,承担停止侵害、消除影响、赔礼道歉、赔偿损失等民事责任……(五)剽窃他人作品的……。
[14]例如2012年6月12日教育部通过的《学位论文作假行为处理办法》。
[15]CNKI学术不端文献检测系统网址:https://check.cnki.net/。
[16]参见文竞择:《我国知网被起诉涉嫌垄断,杭州中院已立案调查》,腾讯网:https://new.qq.com/omn/20220504/20220504A01YIT00.html,2022 年9 月 22日访问。
[17]详细情况参见新京报:《为了通过查重,毕业生们要花多少钱?》,新京报官网网址:https://www.bjnews.com.cn/detail/165400365014452.html,2022年9月31日访问。
[18]参见北京互联网法院(2021)京0491民初31522号民事判决书。
[19]参见郭玉洁:《知网之网》,载于《我国青年报》2022年2月9日第7版。
[20]参见孙晋、袁野:《学术数据库经营者不公平高价行为的规制困局及其破解》,载于《现代法学》2019 年第 5 期,第89-104页。
[21]参见于琦:《深陷争议旋涡,知网是否涉嫌垄断?市场监管总局:正依法开展相关工作》,央广网:http://finance.cnr.cn/2014jingji/yw/20220426/t20220426_525807143.shtml,2022年10月25日访问。
[22]参见吴汉东:《著作权合理使用制度研究》(第三版),我国人民大学出版社2013年版,第5页。
[23]我国《著作权法》第24条:在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益……(十三)法律、行政法规规定的其他情形。
[24] See Yongjun Xu, et al., Artificial Intelligence: A Powerful Paradigm for Scientific Research, The Innovation 2-4(2021), 100-179;https://www.cell.com/the-innovation/fulltext/S2666-6758(21)00104-1#relatedArticles.
[25]参见王晓光、陈静:《数字人文打开文化新视野》,载于《人民日报》2020年2月25日第20版。
作者:管育鹰,中国社会科学院知识产权中心主任,研究员。
来源:《中国版权》2022年第6期。此为完整版,发表时有修改。