1 引言
学术评价是指针对学术成果的学术贡献、学术创新、学术价值、学术影响以及社会影响、应用价值、经济效益等方面的评估。本质上对学术研究具有促进、监督、规范、传播等积极的引导作用。但随着学术评价的定量化趋势、科研管理的简单化操作,学术评价的“量”与科研管理中的奖励制度紧密捆绑在一起,刺激了学术界急功近利的思想和行为,严重干扰了学术研究,败坏了学术风气,造成了学术乱象。
无论是国际学术界,还是国内学术界和科研管理部门都已看到了这个问题,也都非常重视。2013年在美国细胞生物学(ASCB)年会上讨论了科学研究成果的评价问题,发出了《旧金山宣言》[1],宣言中指出:基金资助机构、学术机构以及其他组织均急切需要改进科研成果的评价方式:强调基于论文引用的评估指标,尤其是影响因子,遭到了误用并有害于科研共同体:倡导科研成果的评估不要过度依赖基于期刊的指标。2015年Nature杂志发布了Diana Hicks、Paul Wouters等人的《莱顿宣言》[2],该宣言主要针对科研评价中存在的问题,提出了如何正确使用这些指标和如何进行科研评价的十大原则。
在中国,学术界许多学者直接把一些学术不端、学术乱象归咎于学术评价。在一份学术成果问题调查报告中,有48.7%的被调查者认为,是不合理的评价体系造成了学术乱象[3]。苏宏斌认为,当今学术评价已经对正常的学术研究造成了严重干扰[4];张曙光认为,当下学术乱象横生,过度量化评价有着不可推卸的责任[5];余三定在《人民日报》上撰文,直指学术评价是造成“学术错乱”的推手[6];朱剑认为造成“学术乱象”的根源是科研体制[7],等等。正是由于诸多问题,国务院办公厅2015年12月专门发文阐述了《关于优化学术环境的指导意见》,要求“健全激励创新的学术评价体系和导向机制”[8]。2018年5月中共中央办公厅、国务院办公厅印发了《关于进一步加强科研诚信建设的若干意见》的文件[9],从科研诚信的角度对学术评价体系的构建和实施给出了具体的建议和措施。
由此可见,全球学术领域与有关政府机构都十分关注学术评价问题。基于上述国内外背景,本文在对相关学术评价体系和评价内容进行梳理的基础上,对学术评价带来的问题进行了深入思考,并对如何科学地有针对性地展开学术评价提出了相应的建议和措施。
2 学术评价简述
近半个世纪以来,随着文献计量学的发展和对学术评价的推动,学术评价逐渐由以定性评价(同行评议)为主导向定量评价为主导转移。随着评价理念与技术的演进和发展,学术评价也由单元主体向多元主体转换。目前学术评价体系主要由同行评议、定量化学术评价和新的定量化学术评价三个部分构成。这三个部分各有侧重,单一评价都存在不足,只有结合起来才能逐渐趋于完善。如下对这三个方面进行一个简单总结。
同行评议是学术界对科研项目和学术成果进行主观评价的一种方法。对这一定义进行最早界定并有一定影响力的研究者为Chubin[10]和Gibbons[11]。根据所涉及同行人数的数量,同行评议主要由单隐(Single-Blind Review或Single Masked Review)、双隐(Double-Blind Review或Double Masked Review)和公开评议(Open Review)三种类型构成。结合中国同行评议的实践进程,有学者进行了探究。从累计数、命中率、离散率等不同的角度,针对国家自然科学基金的立项和研究推进情况,赵黎明[12]对同行评议在国家自然科学基金上的实施情况进行了全面的探究。针对同行评议定量评估的问题,结合国家自然科学基金的具体项目数据,王成红[13]设计了数学模型,并提出了定量的评估指标。在系统地总结国家自然科学基金同行评议执行的总体情况基础上,何杰[14]通过具体的数据,说明了同行评议存在的必要性和不足之处。针对透明性、公开性、公平性和公正性的特性,通过对比和分析开放式同行评议与已有的封闭式同行评议,王凤产[15]系统地说明了开放式同行评议的优势之所在。针对期刊同行评议中存在的造假和不端行为,赵艳静[16]和王谦[17]分别从技术、流程和制度的层面对审稿过程中可能存在的同行评议的弊端进行了分析,提出了有针对性的应对措施。
定量评价是基于论文、专著、科研项目、研究报告、专利等研究成果的数量或者等级,结合不同的评价指标,由相应的科研管理机构完成的对研究者的研究水平、能力和工作绩效的一种评价活动。在定量评价中,目前主要使用的方法是引文分析法。随着1961年《科学引文索引》的创刊,引文分析法成了文献计量学的核心方法。1972年,加菲尔德[18]首次提出了影响因子的概念并把这一概念引入到了期刊评价中。随后,Macroberts[19]分析了引文的动机,并从负面的角度分析了引文分析的不足之处。结合相应的数据,Moed[20]指出由于不同学科和不同期刊在质量上的差异性,导致了不能使用影响因子对不同学科和期刊使用同一标准。
2005年,美国物理学家Hirsch[21]提出了H指数对科学家的影响力进行评估,随后Eggle和Rousseau[22]对H指数进行了修订并指出H指数对高被引论文不敏感这一缺点,同时,在此基础上提出了G指数。2006年,Cronin[23]应用H指数对信息科学领域的研究人员的影响力进行了评估。在所提出的与H指数相关的各种指标基础上,Bornman[24]对H指数系列的所有指标进行了比对和界定。基于上述引文分析当中的影响因子和H指数这两个指标,国内的研究者进行了系列的探究和应用推广。金碧辉和刘雅娟[25]论述了期刊影响因子的基本概念和内容,并指出了计算过程中应该注意的问题。在分析国内科技期刊上论文的特点之后,何学锋等[26]针对国际上已有的影响因子计算方法给出了相应的修订计算建议。结合SCI的具体数据,莫京和任胜利[27]对SCI期刊的影响因子进行了统计和分析。在总结了已有评价指标缺失之处的基础上,金碧辉[28]给出了H指数的基本概念并说明了其所具有的重要意义和价值。在介绍了H系列指数形成的基本机理基础上,通过国内外学术论文的真实数据,叶鹰[29]归纳出了新的类H指数并说明了该指数的意义和价值之所在。基于已有的H指数,金碧辉和Rousseau[30]提出了新的R指数和AR指数作为H指数的一种有效补充。
新的定量化学术评价主要是指不仅利用学术文献自身的题录这一局部和静态的信息,而且利用学术文献的全文这一全面的信息和与该论文相关的外部评价这一动态的信息,从而实现对学术论文深度和全面的评价。利用学术论文的所有信息进行的评价称之为全文本学术评价,而基于动态信息进行的评价主要是利用Altmetrics(替代计量学/补充计量学)的理念、方法进行的。基于全文本的数据,Ding[31]发现对高被引论文的引用主要分布于前言和文献综述当中;胡志刚[32]基于相应的数据,也发现了类似的结论。赵蓉英等[33]对全文本引用的情况进行了全面的总结和分析。基于学术文献的篇章、句子信息,Liu[34]认为句子层面的共引性是最强的。Piwowar[35]介绍了Altmetrics产生的背景、内涵、应用和意义。基于Plos上搜集到的数据样本,Fenner[36]分析了论文层面的计量如何成为传统的以引文为基础的期刊计量的重要延伸。赵蓉英等[37]设计和构建了基于Altmetrics的学术论文影响力评价框架及模型,并通过实证研究证明了评价模型的可行性。以国际图书情报学顶级期刊为例,余以胜等[38]结合Twitter的数据,对期刊论文的影响力进行了评价。
3 当前学术评价的现状与问题
我国大规模采用文献计量学进行学术评价的实践开始于20世纪80年代后期,1987年中国科技信息研究所借助国际三大文献检索工具的统计分析,发布了中国高校与科研机构的论文数量“学术榜”,自此拉开了中国学术评价“排行榜模式”,以SCI为中心的评价体系也逐步成了中国各科研机构和管理单位的标准体系。1992年北京大学出版了《中文核心期刊要目总览》,中科院文献情报中心、中国科技信息研究所、南京大学、中国社会科学院等相继研制发布了中国的科学引文数据库(OSCD,CSTPCD)、社会科学引文索引(CSSCI,CHSSCD)。这些引文库和核心期刊目录也逐渐成为我国学术评价、学术排行的重要工具。以排行榜为核心建立的指标体系和评价行为对科学研究的发展、对研究者的激励确实起到了非常大的作用。例如,在中国科学技术信息研究所1987年首次发布的我国国际论文学术榜时,我国的论文数量排名世界第17位,而自2006年以来一直位居世界第2位,论文数量占世界总量之比也从1987年的0.98%跃升到2016年的15%左右。
这些排行榜的公布,在促使我国从一个国际论文小国成长为科技论文大国的历史转变过程中确实发挥了功不可没的作用。但同时也由于学术排行榜的刺激,许多高校科研机构把发表论文的数量与职务(称)晋升、科研奖励紧密地联系在一起,导致了许多急功近利的思想和行为。从宏观的层面上所体现出来的问题主要表现为:①学术评价制度不健全、缺乏刚性约束。虽然国家已经意识到了这个问题,相继发布了系列文件,但缺少制度化的安排和有效的法律执行程序,导致了制度层面上的执行力偏弱和整体效果不理想。②学术评价组织体系不完善、评价主体单一。目前的学术评价仍以政府或单位行政部门为主导,缺乏公开、透明和有效的第三方评价机构,多元化评价主体尚在酝酿中,第三方评价机构有待强化。③学术评价的指标、方法体系程式化较强、缺乏科学性。对学者成果的评价过分注重论文的数量和刊物级别,忽视了论文真正的质量、影响和价值,未有一套能灵活、真实和全面评价学术成果的体系、标准和指标。④学术评价与奖励机制紧密挂钩、密切关联为耦合体。正是量化的学术评价与一系列奖励机制直接挂钩,催生了当前科研活动中无所不在的急功近利的思想,也成了科研不端行为和学术腐败的重要诱因。在上述宏观学术评价问题的大背景下,目前学术评价突出而具体体现出来的问题如下。
3.1 以刊评文、唯期刊马首是瞻
许多科研单位只认发表在某一评价体系内的期刊文章,而不论文章质量如何,就可以得到一定的奖励和晋升的基础。这种以刊评文、不论论文质量的评估方式,导致一部分研究者成了论文“制造机器”,想尽一切办法在这些期刊上发文,由此产生了大量学术不端行为。同时也使一些期刊由科学的“圣殿”摇身变为不端学术的“垃圾场”。因此,在《旧金山宣言》中特别提到了要重视论文本身的质量而不是期刊。
3.2 过度量化、唯数字是从
随着科研管理的简单化、标准化和“一刀切”,一系列的科研奖励机制、学术评价体系追逐各类学术排行榜,确切地说,这些排行榜产生于一定的期刊集合(如权威期刊、核心期刊、来源期刊等),机构、个人的学术水平评估就由期刊集合中所载文章数量来确定。在这一评价机制的刺激下,论文造假、学术行为不规范、学术抄袭、学术浮躁等不端行为频发,比较典型的如:贝尔实验室的舍恩造假丑闻、井冈山大学教师的系列论文造假事件、107篇中国论文被撤稿事件等[39-41]。
3.3 影响因子至上、唯排名是举
在当下的晋升职称、项目资助、人才评审、学生毕业中,由于研究者发表论文数量的增长,因此,影响因子成了无所不能的最后“法宝”,从而导致了一部分科研人员非高影响因子期刊不发文、非高影响因子期刊论文不读的真实状况。从追求发表高质量论文的角度来看,发表高影响因子的学术论文有其合理性和科学性,但由于学科的不同、领域的差异,在学术成果和人才评审的过程中“一刀切”的唯影响因子至上是不妥当的。正如《旧金山宣言》中所指出的:基金资助机构、学术机构以及其他组织均急切需要改进科研成果的评价方式。强调基于论文引用的评估指标,尤其是影响因子,遭到了误用并有害于学术共同体。
4 学术评价未来发展的思考
不论学术领域还是科研机构,关心的主要问题都是学术评价的指标体系,以及如何进行评价创新,但还缺乏对学术评价精髓的领悟。所谓学术评价的精髓实际上就是通过学术评价深刻了解学术状况,由此引领学术发展。鉴于这样的理解,笔者认为,学术评价可以分成三个层面:第一,建立学术指标评价体系,借助指标为学术成果、学术资源、学者、机构等排座次,这是一个浅层层面;第二,通过各类指标数据探索学术研究规律、学科特征、学科关系、研究热点和重要领域等,这是一个中层层面;第三,在第二层面的基础上深度分析,发现各研究领域未来发展趋势,做到引领科学研究,这是学术评价的最高境界,也是学术评价的终极目标。因此,我们应当走出学术评价的第一层面(排行榜),摆脱学术排行榜的桎梏走向深度的学术分析,构建实现学术展望的评价体系。为此,笔者对未来学术评价的发展趋势进行了几点相应的展望。
4.1 构建全面而科学的评价体系
结合中国科学研究的具体国情,改造已有的不同评价体系,打造中国特色的全面科学评价体系。首先,设计健全和细化的学术评价制度,促使学术评价具有较强的可执行性、有效的法律保障性、执行效果的可评估性。其次,构建以第三方为主的多元评估体系,在这一体系下,政府更多的是学术评估的宏观指导者而不再是评估的主体和主导者。最后,构建以科研成果质量为主兼顾科研成果数量的评价指标体系,该指标体系突出科研成果的质量和影响力,并实现对学术成果的多维、立体和全方位的评价,而不仅仅看成果所发表的载体。我们应当认识到,学术评价不应仅用量来衡量学术成果,一篇改变了社会发展进程的论文,一篇对科学重大发现的文章,绝不能用量来衡量他们。例如,“实践是检验真理的唯一标准”的作者,并没有发表多少篇文章,如果按“排行榜”式的评价体系,不仅“名落孙山”,甚至连职称评定也处在弱势,然而这篇改变中国社会历史进程的文章是百篇千篇一般性文章所不能比拟的。
4.2 学术评价强调发现学术规律
通过各类指标数据探索学术研究规律、学科特征、学科关系、研究热点和重要领域的研究,就是从指标数据中呈现科学规律、探寻学科特征、建立学科关系、发现研究热点、挖掘重要研究领域,从而实现把学术排行榜的评价方法、模型和理念转移到对学术规律和学科发展的探究上。在这方面,学术评价领域已有许多研究,比如对期刊论文结构框架呈现规律的探究、对图书影响力和学科特征的分析[42-43],但多数集中在利用关键词分析以及图谱工具对学科研究热点、学科间的关系等进行一些浅表的分析评估,缺乏对学术论文内容的深度挖掘和利用,对学术研究规律的探索、学科研究特征的分析、重要领域的发现等方面的研究相对较少。目前,数据驱动的研究范式已占据科学研究的主导地位,在学术评价领域,必须强调借助各类评价指标,进行深度分析,发现学术规律、学科特征以及重要学术研究领域;同时,围绕学术论文的题录数据,结合下载、收藏、推荐、标签、注释、排名等客观数据和讨论、评价等主观信息,构建学术论文的多维度、多层面、立体的评价大数据知识库,利用数据挖掘和机器学习的技术,根据多种评价指标,相对客观而全面地评价学术论文的影响力,并深入和精准地挖掘研究的发展规律和学科未来的发展趋势。
4.3 学术评价重点关注未来科学发展
通过分析评价,预测未来学术发展的趋向,是学术评价的最高境界。从宏观架构的角度,这一层面主要是通过学术评价对研究的成果和进展进行深度分析,根据科学发展规律进行趋势推演,展望和预测未来的科学发展趋势或未来新的研究领域。随着大数据和人工智能技术的日益成熟,这一宏观的架构逐步会得到落实。从微观操作的方式上,这一层面主要是基于学术文献的全文海量数据,立足于人工智能在自然语言处理、图像自动识别与分析、深度语义关联与挖掘的方法、技术和理念,结合立体和柔性的评价指标,完成对学术论文内容的理解、评价和分析,进而在一定程度上实现面向海量学术文献的自动同行评议,摆脱目前只靠学术文献题录信息的单一评价模式,真正实现基于学术论文的内容预测学科发展及规律的学术论文评价。这是我们认为的学术评价的最高境界。因此,作为学术评价,不仅要看到过去,知晓现在,更要能够预测未来,真正把评价当作一种学术引领来做。
4.4 淡化数量考察,强调成果质量、水平和创新
学术评价应当淡化数量,注重成果的学术水平、学术贡献及应用价值。一味强调成果数量只会造成学者学术浮躁、学术垃圾泛滥,造成虚假的学术繁荣。在强调数量的学术评价体系下,十年磨一剑的成果难寻了,一年磨十剑的学者举目可见。一些考核机制也在无形中刺激着学者去追求成果的数量,比如,一位学者若没有发表过数十篇文章,很难晋升至教授。在这样的学术环境下,能够坐得住“冷板凳”的学者越来越少。笔者认为,虽然在成果管理上需要统计成果的数量,但不宜将其作为表彰、奖励的标尺,真正应当表彰的是那些做出重要学术贡献,具有重要应用价值,对社会、人类、国家进步具有重要影响的学术成果。在奖励机制上向真正有影响力和高质量的学术成果倾斜,使奖励机制真正能够成为高质量成果的孵化器和助推剂。因此,建议未来的学术评价必须淡化数量,重点考察学术水平、学术价值、应用前景,代表作的评审制度值得提倡。
4.5 跳出以刊评文及排行榜羁绊
任何一个学术成果的排行榜,都是限定了一定的来源范围,如期刊论文范围(核心期刊、来源期刊等),并不考察论文的质量,这种典型的“以刊评文”“以出身论英雄”的评价方式造成一些学术期刊为进入评价体系(核心期刊、来源期刊)而制造指标数据,从而导致一些评价体系内的学术期刊高价刊文,而评价体系外的学术期刊则维系艰难,既影响了学术期刊的繁荣健康发展,又使得刊载在评价体系外的学术期刊上的优秀论文由于“出身微卑”而得不到评价体系和奖励机制的承认。试想,如果诺贝尔奖的评选也像国内许多高校重视高影响因子论文、看重SCI期刊论文一样,那么,屠呦呦能获得诺贝尔奖吗?所以,学术成果的评价必须跳出评价体系期刊集合(核心期刊、来源期刊等)的羁绊,应当考察成果本身的学术贡献和应用价值,而不能简单地通过统计所谓高影响因子、SCI、核心期刊等论文数量来评价学者的学术贡献。同时,应顺应中国科学研究快速发展和逐步崛起的这一历史大趋势,适时兴办中国自己的国际期刊,真正提升中国期刊的竞争力,从而进一步提升中国学术的影响力。
4.6 政策导向,实现中国期刊强国梦
我国最早的、有影响的学术排行榜来自20世纪80年代后期,由中国科学技术信息研究所利用SCI等四大检索工具为数据源发布的中国机构论文排行榜。如上文所述,这一工作对我国从国际科技论文小国发展到世界第二大国际论文大国功不可没。但今天我们已经具有强大的科技实力,但却没有强大的科技期刊平台,致使我国大量最优秀的论文流向了国外期刊,每年数十亿上百亿的科研经费成果拱手送给了国外期刊。一些专家痛心疾首,国家投入了大量科研经费产出的成果,其版权是国外的,自己的成果国人看不到,我们送钱、送成果,还要再送钱买版权。a造成这一结果的原因主要是由我们的评价体系和奖励机制的导向所决定的。因此,实现中国期刊强国梦,打造中国的世界一流学术期刊需要有政策导向。因此我们建议:建立国家资助科研项目成果的首发中国期刊制度,国家项目结项时要求重要的成果、半数以上的成果发表在中国期刊上:开展中国期刊优秀科技论文的国家奖评选,刺激国内优秀论文留在中国期刊上;加强期刊走出去、成果走出去战略,除了继续加大资助现有中国的国际期刊(中国的SCI期刊)的发展,还要把大量的中文优秀论文结集翻译,推向世界,这样既保证了国人首先看到自己的成果,又可以让世界看到我国的优秀成果。
5 结语
学术评价是为了促进学术的发展,但客观上,并非所有的学术评价活动都能够促进学术发展,有的评价活动甚至会给学术发展带来负面影响。排行榜式的学术评价过度地把学术评价的结果排序发布,使学术机构或个人为了追逐排名,制定相关奖励、晋升机制,迎合这类排名,由此带来的连锁反应就是大量学术不端行为的出现,给学术风气、学术态度以及学术环境都造成了许多不良影响。虽然,学术评价中的排行榜本身没有错,但由此产生的连锁负面影响则是我们不能忽略的。再者,学术评价更重要的是能够促进学术的未来发展和引领学术研究,所以,学术评价应当重视学术规律、学科特征、学科关系、重要研究领域等的探索,深度分析和发现各研究领域未来的发展趋势,引领科学研究。在2016年召开的全国科技创新大会、两院院士大会和中国科协九大的开幕式上,习近平总书记强调要改革科学评价制度,建立以科技创新的质量、贡献、绩效为导向的分类评价体系,正确评价科技创新成果的科学价值、技术价值、经济价值、社会价值、文化价值[44]。而在同年的哲学社会科学工作座谈会上,习总书记也明确提出了建立科学权威、公开透明的哲学社会科学成果评价体系要求[45]。因此,学术评价不能沉醉于排行榜,必须走出排行榜的泥潭,真正成为学术研究的指南针。