一套自称能“测谎”的学位论文检测系统,于2008年底悄然在一些高校推广,不期然竟掀起了一场轩然大波。新技术与学术沉疴之间的抗衡,到底会有怎样电光石火的碰撞?3月23日,华中科技大学发布通知,对所有全日制、非全日制研究生的论文使用“学位论文学术不端行为检测系统”。相关处罚中,最轻的一条是“一年后重新申请学位”。
剽窃,反剽窃,反反剽窃
论文“测谎仪”引发“高校地y震”
“又有两人被查出抄袭,停止其毕业程序”。5月8日,韩彦坤收到了导师吴天的一条短信,正在公司开会的他一时忘记了会场纪律,腾地站了起来,大喊一声:“我靠,不会吧!”
在领导和同事们诧异的目光下,韩彦坤连声说着“对不起”坐回了原位,但内心再也平静不下来。
韩彦坤是四川大学文学与新闻学院传播班的硕士研究生,他是应届生里的幸运儿,早在2009年2月就被天津高速公司录取了,其时,学院里只有大约20%应届生签了工作合约。
来自导师的短信,让他担心自己论文的命运,进而担心自己的前程。此前,他已经接到同宿舍的李嘉打来的电话,说学院4月23日送出去盲审的论文已经陆续发回来了,结果还不知道,据小道消息称,有些外审学校会使用一套“测谎”软件,专查学位论文抄袭。
5月8日当晚,韩彦坤订了次日返校的机票。他原本订好一张10天后回成都的xx机票,D字级的,不能xx也不能退票,他等不及了,只能白白损失400块钱。
同一时期,与韩彦坤情况相似的张晴也拖着行李匆忙赶回武汉。
在研一还没结束的时候,张晴就已经完成学分离开华中科技大学,一边实习,一边找工作。算下来,这两年她在学校里呆着的时间,加起来还不到8个月。
张晴的毕业论文早在一个月之前已向导师提交了初稿,迟迟没有回音。4月初,她从QQ群邮件里得知,今年学校要引入一个论文“反剽窃系统”。QQ群邮件,也是她离开学校之后获知学校信息的{wy}手段。
与韩彦坤一样,回到学校的张晴亲眼目睹了这场“反剽窃系统”引发的大地y震。
一群受到惊吓的“白鼠”
那套引起恐慌的反剽窃软件,正式名称是“学位论文学术不端行为检测系统”(TMLC),学生们习惯称其为“测谎仪”。最初的传闻里,它功能强大,面对学位论文有一双火眼金睛。
韩彦坤的毕业论文是关于xx品广告的,4.2万字的论文,他用了不到两个月时间完成。这速度算不上快,师兄师姐在介绍“经验”时说,一个星期就可以搞定,方法是直接找一篇现成的论文,在那上面进行一些修补删减,变成“自己的东西”,再拷贝一点其他论文的观点,就OK了。
师兄张横还告诉韩彦坤,一定要放宽心,很好过,“大家都是这么过来的。”
韩彦坤周围的大部分同学都是用“拷贝粘贴法”写论文的。对于他们而言,还有比这个更现实更迫切的任务:实习、找工作。
张晴同样认为论文抄袭不值得小题大做。4月底,她所在的学校有五名学生因学位论文抄袭被追回了学位,其中有两名博士。“那肯定是抄得太离谱了,不然怎么可能被取消学位?”
近几年,因为论文抄袭而被取消学位的新闻屡见报端。而新华网针对论文抄袭事件的调查显示,44.25%的xx者认为这是“普遍现象,屡见不鲜”,24.28%的xx者在评价此事的社会影响时选择了“不抄白不抄,大家都这样”。
武汉大学信息管理学院硕士生导师沈阳副教授,曾申请和获得多项反剽窃专利授权,他自主研发的 “ROST反剽窃系统”软件,目前已在全国20多所高校院系和100多家期刊社使用。沈阳在接受《中国新闻周刊》采访时表示,他曾检测一所部属高校学生和 教师的自由命题论文,783篇论文中,涉嫌抄袭者过半。全文剽窃的论文有161篇,占20.4%;段落剽窃256篇,占33.2%。而他对一所重点院校的 450名本科生进行了“剽窃行为的自我评估”调查。认为自己“经常”剽窃的学生占到了32.84%,还有46.15%的学生认为自己“较多”剽窃。
在国内某些高校推广的,是由中国学术期刊电子杂志社与清华同方知网共同研制的另一套学术“测谎仪”,即TMLC。
3月23日,华中科技大学发布通知,对所有全日制、非全日制研究生的论文使用“学位论文学术不端行为检测系统”。相关处罚中,最轻的一条是“一年后重新申请学位”。
仅在武汉,据不xx统计,至少有华中科技大学、武汉大学等6所高校引进了这个系统。武汉大学抽检10%的学位论文,其余的学校都是全检。
华中科技大学的校园BBS“白云黄鹤”里,“研究生苑”版前所未有的热闹,有学生戏称这一届毕业的学生是“小白鼠”——成为了此系统的实验品。
“被雷得外焦内嫩”
张晴所在的院系,除了教务在4月份时通知过一次“被系统检测出30%的,直接不授予学位”之外,所有关于此系统的讨论,都是“据说”——
“据说有的院系挂了三分之一!”
“据说有的院系65个人,挂了27个!”
没有人证实这些说法,但恐慌在蔓延。
韩彦坤所在班的QQ群里,颇有点“哀鸿遍野”的景象。此前,这个群里的谈话内容多数是班级里 饭局的邀约和八卦的调侃,而5月8日这天,气氛骤然变得紧张起来,大家的发言无一例外用上了大量的问号和感叹号,还有哭泣的表情,对“测谎”越描越玄的猜 测,更加深了众人的恐惧。有人甚至还编了一首打油诗,在群里广为流传:
“天灾xx躲不脱,金融危机还未过,测谎机器又来作,到底让活不让活。”
而韩彦坤的同学马平就在这天收到了一条让她觉得“霉起冬瓜灰”(成都方言,意为很倒霉)的通知:论文外审没有通过,延迟答辩。这意味着她不能和同学们同期xxxxxx和学位证要延迟到12月份才可能拿到。
问题出在外审老师使用的学术不端“测谎仪”上。那篇没通过答辩的论文,据说已经亮起了“红灯”,用“行话”解释,就是3.6万字的论文里的文字复制比例超过了30%,有段落抄袭的嫌疑。
更惊人的消息是,四川大学外国语学院前期送出去盲审的11篇论文中,有6篇没有通过。
早早订好的“散伙饭”,被一次次无限期延迟;西区食堂门口,平素同学间打招呼的“吃了吗”悄 然换成了“你过了吗?”有的学生开始频繁往来于图书馆、宿舍和食堂,对于其中一些人而言图书馆是陌生的,甚至都不知道学校的文科图书馆在文科楼对面,而理 工类的图书馆集中在研究生院,因此大费周折。
四川大学东区七舍已经很久没这么热闹了。在过去的大半年时间里,班里70%的同学都散落在全国各地,忙着实习,忙着找工作。大部分的时候,楼内都是冷冷清清的。现在,这里的紧张气氛如同临战指挥部。
“据说每段抄袭不超过两百字就算过关,咱们赶紧改,哪怕改成199个字也成!”
“那我把‘媒体’改成‘大众传播工具’成不成?”
“好像不成,那玩意儿能查出来。”
??
一群女生叽叽喳喳地商量着对策,上蹿下跳。
马平收到了研一的师妹发来的短信:“师姐加油!我们年级已经通知了,从下学期开始,我们的论文从选题就开始抓起,要大力整风。我们有的忙了!”
与恐慌同时蔓延的,是抱怨和怀疑。
“本来想抄书上的理论,就找了几本课本,结果发现,哼,几本书,相关章节一个字不差,这出版 书的大牛们都这样,却来检测我们这些学生。先把他们的书送去‘不端’,{bfb} !”还有人称,“知网库的每一篇论文都来个检查,看有多少人挂掉,总拿学生开刀,还打着捍卫学术腐败的旗帜??”
在“白云黄鹤”,有学生看到“测谎仪”的检测报告后宣称自己“被雷得外焦内嫩”,因为检测报告中认定“高度相似”的部分,怎么看都不像是抄袭的,他宣称“正式进入机器玩人的时代!”
学校管理者如何看待“测谎仪”?华中科技大学研究生院主任蔡子安表示,“这肯定是一个好事 情”,但现在还不便接受采访。四川大学文学与新闻学院副院长吴建并不认同反剽窃只针对学生的说法,他说西南民族大学学报和四川大学学位办都引进了这套系 统,老师投稿的论文也要接受检测。
吴建还表示,近年各大高校曝出的学术丑闻越来越多,引进学术检测系统不仅能敦促学生提高学术上的修养,也能预先减少“抄袭”的产生,这对于学校来说是双赢的。
零星的自省
华中科技大学光电实验室的周恩波在BBS上发了一帖,打破了单调而喧嚣的抱怨气氛。周恩波的态度是:“如果一个字都不是抄的。哥们放心大胆的。就算检测系统误判,学位委员会也会纠正的。在这里担心受怕的应该是些什么人,大家心里清楚。”
他的帖子迅速遭致围攻。周恩波称,他的博士论文写了4个月。有人回敬他:“相信大多数和我一样的学生,在提高自己和把精力耗在一个根本不可能出太多学术价值的论文之间,会选择前者,貌似我们有点现实,而你们有点理想。”
周恩波在接受《中国新闻周刊》采访时称,“当我发现辩解的论题居然是,诚信因为其他现实问题是否可以放弃时,我觉得很可悲。也许现在社会的问题就是如此。”
在“测谎仪”引起的恐慌中,很少有人会像周恩波这样,进行关于学术诚信的反思和追问。
为什么要抄袭?在许多人眼里不成其为一个话题。四川大学法学院06级硕士张芸的观点是,就业的压力远远大于完成学位论文的压力,“现在就业形势这么严峻,如果我把大量的时间用在写论文上了,哪里还有时间找工作?”她的想法代表了相当一部分大学生的意见。
作为传道授业者,四川大学文学与新闻学院副院长吴建对自身进行了反思,他认为,导师对于学生学位论文的写作,往往在前期缺乏有效的监督;另外,在论文选题上把关不严,有些论题显得大而空,学生实际操作起来很难下手。
在华中科技大学举办关于“反剽窃”系统的讲座时,沈阳希望学生们更多地从学术伦理的角度思考。他讲了一个希腊作家把作品当作孩子的例子,当另一作家剽窃他的作品,他以偷窃儿童的罪名提起控诉。
沈阳不认为这套软件成为反剽窃的利器,他倒是更希望它引起人们对学术道德的关注,现在看来,除去“增加了抄袭的成本”,它还远未实现其他愿景。耐人寻味的是,作为反剽窃系统的研究者,沈阳却感到自己“压力巨大”。
全部通过
“测谎仪”引起的轩然大波,迅速转化为一股对抗与xx的力量。在韩彦坤的校园里,在张晴的校园里,“小白鼠”们讨论最多的,是如何应对这个系统。
有人探讨抄书的可行性,觉得书不会进论文库。其想法很快被否定,“谁能保证你抄的这本书N年前没有被别人抄过?”
有人跳出来说,那个系统没这么强大,只要把抄来的句子改成自己的表述,就没问题了。事实上, 多数人的选择也确实是对自己的论文“大兴土木”,逐字逐句地进行颠覆性的修改,劳动强度甚至超过当初完成论文。有人举例说明,一句“物质决定意识”如何被 改成了“自己的语言”——“我们知道,在物质与意识的关系上,认为后者能够决定前者是不正确的,xxx主义者得出的结论与上述结论是恰恰相反的。前者只能 反作用后者,后者起到了决定性的作用。”
对于这样的修改,有人认为很好,认为“避免抄袭,又多了字数”,也有人认为,“计算机不认可废话,可能还是过不了”。一个大家公认的结论是——“论文水平直线下降”,因为要“写出优质的长篇废话”。
离毕业答辩的期限越来越近。已有人抛弃掉这种“原始”的修改论文的方式,直接想出了更加高明的办法——“答辩交一个纸质版本;给系统检测的时候送审另外一个版本的电子版”;还有更高明的——把一部分文字变成图片格式,系统就检测不出来了。
在接受《中国新闻周刊》采访时,沈阳并不否认,在人脑与系统的“测谎”博弈中,后者处于劣势。
在四川大学,韩彦坤的论文经过修改,通过了检测,马平则要像其他14位本科生和20多位博士生一样,要延迟半年答辩了。
在华中科技大学,已经被张晴改得面目全非的论文最终通过了答辩,但是被批为“毫无学术含量”。{yt}以后,张晴所在的院系,接到教务的通知,“全院通过论文检测。”他们对“测谎仪”的战绩非常优异。
包括张晴在内一批同学在QQ群里互相恭喜——“这是个皆大欢喜的结局”。★
(部分受访者为化名)
对话“反剽窃”软件开发者、武汉大学副教授沈阳
“如果都揭出来不亚于一场政治运动”
文/凌冰
中国新闻周刊:武大版的软件在推广的过程中遇到了怎样的阻力,为什么没有率先推广?
沈阳:国内研究这个的有六七家,真正能够给社会提供实用服务的,可能就只有我们和清华同方。2008年4月完成它的时候,还是希望能推广,但是推了一圈之后发现,问题比较大。很多人一听这个东西,{dy}是不相信,第二呢,他害怕。没有谁不怕这个东西,哪怕是教授博导之类的。
中国新闻周刊:华中科技大学这边的情况是,学生们为了应付这个系统,想出了不少“高招”。比如加入一些字节,就不会被查出来。是这样吗?
沈阳:是的。这个技术暂时还不可能靠语义来辨别。不过在加的不多的情况下,系统还是可以模糊匹配,给出一个很高的相似度。
中国新闻周刊:许多人质疑:为什么只针对学生,不针对老师?
沈阳:这个软件并非针对学生的。至于为什么没有查老师(的论文),这个问题我把他叫作“学术 原罪”,就是说,经过50万篇论文的抽样发现,这个(指老师的论文抄袭)量非常大,抄袭的人非常多,严重抄袭的人非常多。这就是说,如果都揭露出来,会不 亚于一场政治运动。所以我想这个问题可能还需要去讨论。
中国新闻周刊:是什么导致学术不端行为越来越严重?
沈阳:社会网络中,这个现象叫做“偏好依附”,就是看到某个人做了这个事情,还得了利,别的人也跟着学,所以最终呢,就是越抄越猛。
中国新闻周刊:评价论文一般涉及两个问题,一个是学术水平高低,另一个是诚信。但这个软件只能检测出后一个问题。
沈阳:它不是水平评价软件。我们很多时候对技术的期望值过高,希望世界上有一种东西能够包治百病,但是反剽窃软件只是简单的字符串的对比软件。在很多情况下,人都不能评价人的水平高低,何况是电脑。
中国新闻周刊:这个系统在国外推行的时候也是很容易xx吗?
沈阳:这个问题在国际上也都是有的。但是国外还有的人从另外一个角度来分析这个问题。就是说,对于本科生而言,或者对于低端的硕士生而言,他利用这种系统来做改写,对能力的锻炼也很有价值——就是不xx从反剽窃的角度来考虑了。
中国新闻周刊:你如何判断这个博弈的走向?是系统占上风还是人的xx力量更强大?
沈阳:从中国的情况来看,今后反剽窃软件推广后,学界抄袭现象依然不容乐观。今后高校将大量 出现首先拷贝他人论文,然后修改得面目全非、文理不通的奇观,还是抄,只是抄得更加隐蔽,更加辛苦而已。国外的大学里面,他们平常的作业和小论文如果是抄 的,被发现都会被退学,更不用说是答辩的论文了。国外对学者的要求是非常高的,这就是国内和国外的学术廉耻心以及整体学术环境的区别。技术只能跟着人走。
中国新闻周刊:这样的博弈,会不会让你觉得很沮丧?
沈阳:学生在拼命修改他们的论文,我也希望逐步去修改我们的软件。这是事物发展的正常规律, 我很能理解这种情况,只要我们的剽窃的根源还存在的话,那么这种现象是肯定得不到根治的。所以从技术角度而言,我们只是想着怎样去把这个软件做得更好一 点,在技术上做更多的探讨。 ★
“反剽窃”在路上
本刊特约撰稿/凌冰 李渝
国内对学术论文“xx”的监督并非始自今日。2000年3月,上海师范大学法商学院的何云峰教授单枪匹马地建了一个“好汉网”,豪气十足地叫板校园里势头渐旺的剽窃抄袭等不良学风。
同年,xx“打假斗士”方舟子也创办了中文学术打假网站“新语丝立此存照”,陆续揭露了 500多起学术涉假案例,其中包括“核糖核酸”、清华大学医学院“刘辉xx事件”等引起广泛关注的学术xx和腐败事件。方舟子们的学术打假多通过网友检 举,并没有专业的仪器进行技术支撑。
2003年,武汉大学信息管理学院副教授沈阳在国家自然科学基金的资助下,研发了一套与“学 位论文学术不端检测系统”功能相似的系统——ROST反剽窃系统,也称为“学术不端行为检测系统”,并于2008年4月研制成功,目前已在全国20多所高 校院系推广和100多家期刊社使用,但没有大规模推广。用沈阳的话说,“就像原子弹一样,它是大规模杀伤性武器,这需要核军控的”。
在2009年“两会”前夕,爆出两起院士涉嫌学术不端行为的事件。6名教授联名投诉中国工程 院院士刘兴土涉嫌“抄袭剽窃”。此前不久,浙江大学原副教授贺海波盗用他人研究结果发表多篇论文。贺海波的博士后合作导师、中国工程院院士、浙江大学药学 院院长李连达的名字也出现在这些“问题论文”上。随后,教育部部长周济就“贺海波论文xx”事件及处理结果表示,对学术不端行为要像体育界反兴奋剂一样 “零容忍”。
2009年3月19日,教育部发出了《关于严肃处理高等学校学术不端行为的通知》,这是我国 教育部门首次就处理学术不端行为发出通知。通知明确高校对本校有关机构或者个人的学术不端行为的查处负有直接责任,应建立健全处理学术不端行为的工作机 构。整个学术界颇有山雨欲来的感觉。
正是在这样的背景下,由中国学术期刊(光盘版)电子杂志社与清华同方知网共同研制的“学位论文学术不端检测系统”(简称“TMLC”)开始在高校推广。
检测的方法涉及一个专业术语——“自适应多阶指纹”。什么是信息指纹?沈阳副教授打了个比 方,就是每个人说话都有口头禅,这个口头禅就是你的一个特征,这个特征就叫信息指纹。具体到一篇文章来说,比如研究金庸小说,金庸喜欢用什么字,用字的规 律是多少,每个字在整个文章出现的概率是多少,这就是一个指纹。CNKI科研诚信管理系统研究中心主任孙雄勇向《中国新闻周刊》记者介绍,如果说得通俗一 点,就是两篇文章,如果有一个句子相同,哪怕有一些改写,都能检测出来。
“测谎”工具的检测工作需要强大的后台数据库支持,TMLC的后台是覆盖了超过5000万的学术文献数据库。
“测谎”技术在目前来说,已经是一个成熟技术了,国外早已广泛应用于多所高校及科研机构。
在一系列反剽窃网站中,最为出色、应用最广泛的莫过于“Turnitin”,中文意思是“交上来”,它也是全球{dy}个检测剽窃行为的网站。该网站目前已阻止了世界范围内将近600万的学生和教育者的剽窃行为,在使用高峰期,每天可收到2万篇论文。
“Turnitin”通过三个数据库的内容来检测交上来的作品:公众可以查到互联网上所有存 档的文件(超过45亿页,每天更新4000万页);成百万的已经出版的作品,包括商业数据库、期刊摘要等,还有上万本电子书籍,包括古登堡经典文献收藏; 成百万篇学生交到网站的论文。
在中国,数据库也在不断完善之中。不过,“反剽窃”系统要面对的,似乎远远不是技术难题。