袁振国:大学排名不严肃、不科学、不可信

发布者:fzghc  发布时间:2019-04-01  浏览次数:

 

袁振国 中国教育智库网 2月25日

 

精彩导读

评价对教育起到很大作用,在促进教育改革和发展方面也会起好的作用,但是任何事情都是双刃剑。总书记在全国教育大会上把教育评价的问题作为重要问题提出来,可见这个问题不是局部的、短暂的和次要的问题,而是成为非常主流的问题了。

 

作者:袁振国中国教育三十人论坛成员、华东师范大学终身教授、中国教育学会副会长、《华东师范大学学报(教育科学版)》编委会主任。

 

关于“大学排名风险”,我想就八个问题做一个简要的介绍:

第一,我们为什么做这件事;第二,现在大学排名的情况;第三,为什么要选择四大排行榜;第四,四大排行榜的共同特征;第五,大学排名的报告框架;第六,观点和结论;第七,六大风险;最后是态度和建议。

 

-----------------------------------------------1--------------------------------------------------------------

首先,我们为什么要做这个事情?评价对教育起到很大作用,在促进教育改革和发展方面也会起好的作用,但是任何事情都是双刃剑。总书记在全国教育大会上把教育评价的问题作为重要问题提出来,可见这个问题不是局部的、短暂的和次要的问题,而是成为非常主流的问题了。

 

我们为什么要研究大学排行榜的问题,为什么要做这个工作?一句话,太热。

 

如果学者做了一些大学的分析、评价,甚至于排行工作,这无可厚非,可以作为学生、家长选学的参考,学校可以作为办学自我诊断的参照,政府作为资源配置的借鉴的话是可以的。

 

问题在于大学排行榜现在热到了超出了排行榜本身的功能,热到已经承担不起这个责任了。因此我们要降一点温,要泼一点冷水,让大家对这个问题有一个理性、清醒、独立的认识。

 

说大学排行榜太热有什么根据?如果你搜索一下排行的话,在各类网站、很多媒体上都把它作为吸引眼球的重要内容;第二,媒体各种关于排行榜的信息让学校普遍焦虑。

 

现在大学排名是什么情况?大学排名不只是中国有,在世界范围内都非常热,非常容易就能列举出50多个经常发布排行榜的机构和名单。

 

既然有这么多的排行榜,我们为什么选这四个呢?因为这四个热度最高。很多政府文件、大学宣传、媒体报道都把这四个作为它们的依据。

 

我看到很多大学已经把提升排名作为了一个任务。有些大学总是提自己是前一百名,就像总是提自己是985、211大学一样。我国大众主要看中的也是这四个,所以我把这四个拿来进行分析。

 

---------------------------------------------------2----------------------------------------------------------

这四个排行榜就是U.S.News、QS、THE、ARWU。

 

这四个排行榜有什么共同的特点呢?尽管它们在出发点和理念上所使用的标准、权重的安排都有不一样,但是都有若干的共同特征,而这些共同特征是特别值得我们警惕的。

 

第一个,导向不可取。导向的问题在什么地方呢?大家都知道大学的第一功能是人才培养,是看人才培养的质量和人才培养对社会的贡献。一代又一代的人才是大学对社会最重要的贡献。但是在这四个排行榜当中,人才培养所占的比重最少的只有5%,也就是说只有5%到20%的权重在人才培养,80%以上跟人才培养没有关系。

 

第二个学校和学校不可比,大的和小的,文科和理科的,综合的和单科的这些学校之间都是不能比的。把不同性质的学校拿出来一起比,就像比较大人和孩子一样,男人和女人一样,年轻人和老人一样,他们本身就不可比。

 

第三个,标准不一致。这些排行内部的标准是不一致的,不同的排行有不同的标准。

 

第四个,指标和标准不匹配。一个指标要有相应的标准匹配它,如果匹配的比较完善还能说明问题,但是我们发现很多指标和标准之间很疏离,甚至没有什么太大关系。

 

再一个就是数据不可靠,严重失实。有主观原因和客观原因,主观上来说,它们的数据搜索要求和标准之间不准确,没有联系,或者说联系不紧密。它知道需要更好的数据,但是这些数据机构涉及不到,或者学校不愿意提供给它,因此只能求其次,用联系不太紧密的数据替代。

 

还有一种可能性是它有数据,但是人家给它的数据是不可靠的,原因也不是人为的。我曾经做过科研管理工作,现在我还参加这方面的工作。我们经常会通过专家评审的办法来请大家评审项目,评审奖项,或者评审其他的计划。

 

一开始设计的时候,人员和评价对象还是比较接近的,我想选100个人,我发出100张邀请函,其中50张没有回信,20张拒绝了,还有10张由于各种各样的原因没有给我很好的结果。那怎么办?换人。

 

我第二次发出90个邀请,结果又经过一次淘汰,等到最后开庭的时候还少20个,所以完全跟它当初的设计没有什么关系,这是主观和客观造成的,机构没办法对全世界的大学进行评价,这是不可能实现的。

 

我曾收到几个排行榜组织的邀请,让我对大学进行排名。我一开始挺热情的,但是排到一半不行了,这300个大学我听都没听说,让我怎么排名?

 

此外,排名的方法也不科学,包括数据采集、分析过程也不是很科学。

 

由于历史的原因,地域的原因,文化的原因,大学排名当中有些严重的偏见,我们往往不自觉,甚至漏掉了偏见对排名的影响。

 

有些偏见是自觉的,有些评价者自己也不知道。比如说语言偏见,比如需要每个学科邀请30个以上的专家,结果全是英语系的,其他语系的就没有办法参加了。刊物的偏见,我们现在有SCI、SCCI,那论文都是一样的吗?都是很好的吗?

 

曾经前不久发生过一次让我非常震惊的事件,有一个没有上过大学的人,一年写了800篇SCCI和SCI的论文,涉及到13学科。他把论文进行整合整理,用最新的词汇,用各个杂志喜欢的样式,一年发了800篇论文,我觉得这也是一个奇才。写论文的学者都被戏弄的无地自容。

 

----------------------------------------------------3------------------------------------------------------------

然后我们要特别强调大学排名的风险,我们把它归纳为助长非理性办学。

 

最后提出建议,办大学要安静的,长期的,精心办,不能靠轰轰烈烈,也不是靠一时的炒作就能把一个大学办好,一定要尊重大学的办学规律,营造大学良好的办学氛围,我们要特别警惕大学的排名给我们带来的风险。

 

我们说大学排名的风险是什么呢?我想三句话概括。

 

第一个不严肃;第二个不科学;第三个不可信。

 

为什么我们说它不严肃?现在最有影响的U.S.News,从上个世纪80年代开始排名,它们一开始是作为一场游戏,这个杂志办不下去了,怎么办呢?主编开会讨论,讨论完了以后出了一个主意,我们搞个大学排行榜,这个可以吸引眼球,可以提高销量,大家觉得这个可以做就做了。这个比较简单就请一些人说你们觉得哪个好,然后引起了轩然大波。

 

美国大学能饶的了它吗?都批评它,它觉得这套路走对了,就开始走下去,开始了U.S.News的排名,当时只做国内的,后来才做全世界的。其他的单位觉得这个好玩,是很大的商机,纷纷跟进做起了排行榜。

 

这是一个不严肃的事,觉得排行榜老是把哈佛排在第一不好玩,就排到第三去了。这本身是游戏,人家是游戏,你把它当真了。

 

但是我们还在做一些傻事,既然影响这么大,它做游戏,我不能做游戏,我得认真对待这场游戏,所以我们分析一下它科学不科学?我们看这件事情科学不科学,我们要问一系列问题。

 

第一个,大学的水平可不可评?如果本来是不可评的,或者现在的方法、技术、数据还达不到可评的时候我们怎么评价?大学的基本功能是什么?大学的发明创新和价值怎么体现?大学对世界的引领作用,文化积淀,大学育人、培养人才,这些内容才是大学的根本使命,这些使命可不可以测量?可不可以用数量化的方法公布?

 

至少从目前的四个主要排行榜当中对于这些大学的最根本的文化使命和价值都没有反映,是它不愿意反映,是它认为这个不重要,还是它确实没办法?我是出于善良的考虑,我觉得它们没有办法,而不是他们认为这件事不重要。

 

第二个,该不该评?有些东西该不该作为指标?能不能把它作为评价大学水平高低、质量高低的标准?毕业生工资收入在很多排行榜中成为了重要指标,也是很多大学作为招生的重要内容。但是从整个世界,一个国家来看,这样的评价就很成问题。

 

我们两弹一星的工程师在奋斗,我们鼓励人们到偏远的山村支教,这是我们大学该鼓励的还是该反对的?他们的工资不高,他们的人均收入不高,从这个角度他们应该排在后面,但是我们以这样的人为荣,这才是社会的价值。有些指标是可以采集的,但是能不能拿来作为我们办学的方向?

 

第三个,重不重要?可以评价大学的东西太多了,你把什么作为重要的,什么作为不重要的?也就是指标的确定和指标权重的确定。我刚才已经说了,大学最值得重视的人才培养在评价标准里面居然最多只有四分之一的比重。这样评出的结果到底还重不重要呢?

 

第四个,合理不合理?这个指标放上去了,合适不合理呢?全世界得诺贝尔奖的一共不到495人,但是哈佛大学就有158名。这说明什么问题?我们往往把这个看的很重,一票定乾坤。

 

我们评价学生的时候也是以极数学生做代表,你选出十名或者十五名最能代表学生水平的,结果我们跟这个单位沟通说这个名单没有给我们,那个公司说这不是你们的,是我们培养的。跟家长说,家长说这主要是家庭教育的成果。当然家长有功劳,企业和社会都有功劳,所以记入你学校的成果也不可信。

 

第五,准确不准确。因为数据太多了,就不展开了,有很多数据是误差的,有很多重复的,也有很多难以评判。

 

QS有40%的权重是主观评价,主观评价是最不负责任,最不科学的指标。你想即便一个教师再负责任,面对300个学校做排名,怎么做出来?一边喝咖啡,你说这个放第几位?第8位,放第5吧,第5太前了,那第10吧。

 

第六,这样排系统不系统?用四个字形容,盲人摸象。我们有不同的角度,有不同的数据,也有不同的看法,所以每个人就看到自己的方面,我们知道部分,部分不等于整体,整体不是部分之和。

 

所以根据那么细的指标,而且这些指标是不充分,不准确,不科学的,要得出一个整体性的排名,这个是荒谬的。我们在选择学校的时候也经常发生这样的事情。

 

因此它是一个不严肃的事情,也是不可信的事情。因此我想用八个字对应,就是姑妄言之,姑妄听之。他说他的,我们听我们。如果你太关注这个东西,必然会急功近利。

 

--------------------------------------------------4--------------------------------------------------------------

我们有些大学非常的智慧找到了跻身排名的捷径,用什么办法?挖人,花钱引进了很多学者,排名从1600多名一下子提高到270名。

 

第一,助长大学急功近利的风气。我们现在非常重视论文的发表,论文在所有的指标当中都是特别重要的指标。本来写论文是科学发现和科学研究很重要的成果和载体,我们发布的是什么呢?是我们科学研究的成果,是我们研究的结果,是我们对社会的贡献。

 

但是当论文本身成为衡量指标的时候,我关注的不是怎么研究发现真理了,我主要关心怎么让论文发出来。所以怎么让论文发出来和怎么做出科学的发现,这完全是两个不同的道路。

 

第二个,助长忽视学生和教学的倾向。因为没有权重,权重很低,当然和我们学校的最重要的工作没办法进行匹配了。

 

第三个,助长大学忽视自身特色。要想包打天下,这个是不可能的,也不符合社会的需要。社会需要是百花齐放,各尽其能,这个社会才是和谐多样的。这个指标里面对于大学的特色是不强调的,你把精力集中在这些发展上,对特色大学很不利。

 

第四个,助长盲目扩张。由于体量大,导致很多大学重组、巴黎、法国、英国都在做这样的事情。

 

第五个,助长不道德竞争。可以想像得到,由于它离开了对真理本身的追求,形成了对功利目标的追求,就会产生很多不道德的问题。

 

第六,这是西方文化中心的系统,对西方的杂志,西方的学者,西方的项目,西方的指标,西方的评价受到吹捧和欢迎。

 

----------------------------------------------5------------------------------------------------------------

最后,我想简单的提示一下我们的观点,我们的意见。

 

第一个,要建立正确的评价观和标准体系。非常严肃的学术研究需要长期的大量积累和实践,需要跟踪研究,而且一定是分类指导。我们不要想有包打天下的评价体系出来,至少我认为我们的智慧和现有的工具做不到。

 

如果是比较严肃的发布者,我们建议它们重视公共立场与公信力,要有统一的标准、评判同质对象,采纳更科学合理的指标体系,配套发布使用说明。在大多数情况下要有一个提示,像吸烟危害健康一样告诉别人。

 

多维视角,全面解读。认识需求,合理使用。我们像选学校一样,我们两个人考试,我得了200分,你也得了200分,你数学50分,我语文150分,我们两个一样吗?完全不一样。家长选择学校的时候一定要搞明白内在含义。

 

高校要放下焦虑,可以参考,但是千万不能作为指挥棒,不能作为努力的目标。现在太多的学校在规划上写着要把学校从第几名提到第几名,要进前两百,这怎么得了呢?这不是办大学了,这是非常危险的。

 

作为政府来说,可以参考,但最好是不见、不看。如果一定要看的话,也不要太在乎。姑妄言之,姑妄听之。

 

最后,我想呼吁大家以正确的态度对待大学排行榜,还大学安宁的环境。

 

本文为袁振国在《中国教育三十人论坛第五届年会暨“重构教育评价体系高峰论坛”》上的演讲。