选自 The Ideophone
作者: Mark Dingemanse
机器之心编译
参与:Rick、gabrille、盛威
摘要:Google Scholar 是一款非常出色的产品,但它对内容有极大的包容性,以及掺杂了自动升级内容和用户手动设计内容的 profile (用户个人研究界面)的特点,都意味着我们永远不能仅仅从表面上解读上面的数据。比如下面这两个范本:超级夫妇 A. Author 博士和 Et Al 教授。如果你也有一个 Scholar 的用户界面,你要确保没有授权 Scholar 可以在不定期检查和清理出版物列表的情况下自动升级该列表。如果你在看别人的界面, 先不要尽信上面的内容,尤其是在他们的用户名特别普通,或者界面上有重复项,或者引文分布非常奇怪的时候,因为这都可能表明这个界面正在进行自动升级。
由于 Et Al 教授的研究成果,Google Scholar 的成员手动设置了她不能在排行榜中出现。他们可能认为,Et Al 教授的出现会太过明显地把这个系统的游戏规则告诉人们。下面会提到,这种做法并不能解决 Yi Zhang , John A. Smith 通过稀释前面排名自动升级个人页面的问题。事实上,就算在科学计量学( scientometrics)中,排名前10的个人页面好像也有3到4个页面是自动升级的。
我很喜欢 Google Scholar。和很多科学家一样,我一直都是用它搜索线上的科学文献,因为它比 PubMed,Sciencedirect,JSTOR 等网站都要更有用而且更全面。我之所以喜欢用Google Scholar ,不仅是因为它能迅速地提供学术论文以及论文引用情况的信息,我还喜欢它一目了然的个人主页,你可以从中一眼看出某个人最有影响力的作品 ,并评估这些作品相对的影响程度。但事物都有两面性,我们不妨思考一下。
Google Scholar 的三个优点
1. Google Scholar 具有很强的包容性。它从学术期刊,书籍,会议论文集,预印本服务器中找到各种类型的学术著作和索引资料。对于很多学科来讲,书籍和同行评审的论文集与期刊出版物一样,都具有极高的价值和强大的影响力。但 Web of Science ,PubMed 等网站只关注期刊的检索,因而很多对发觉出版物和引用计数感兴趣的人都更喜欢使用 Google Scholar 。
2. Google Scholar 的引用分析是自动化的。著作的引用情况可以持续更新,就算是比较模糊的学术网站,使用 Google 索引也会使跟踪记录学术著作的影响力变得更加简单。你甚至还可以让 Scholar 在你的作品被最新引用的时候给你发一封邮件。可以选择的东西非常少,你不需要手动挑选,影响因子等有问题的措施没有影响:只有引用量决定论文列表的顺序,纯粹而且简约。
3. 由学者制作个人主页。正常人都懒得去搞清楚几百个叫 Smith 的学者到底是谁,也不想整理那些没有标注作者,题目或期刊名字的论文。Google Scholar 团队中有人提出了一个非常巧妙的想法,这项工作可以让与其利害相关的人自己做:那些希望确保自己贡献的作品能够正确和全面地呈现的个人学者。因此,虽然引用是自动生成的,但 Google Scholar 个人界面上的出版物列表至少有可能是主页君手动加上的。
Google Scholar 的三个缺点
1. Google Scholar 具有很强的包容性。任何只要看起来有点像文章的东西它都会计算进去,比如 A. Author 的杰作 Title of article (128次引用)。它还会包含在这个作者在其大学网站上发表的所有内容,因此任何可以在大学网站(美国大学网站多以.edu作为域名后缀)上发布文章的人,都可以非常方便地操控系统。最近,Google Scholar 开始对学术网站 academia.edu 标注索引,而这个网站没有任何质量管理,任何人都能在其网站上发布任何内容进行传播。
2. Google Scholar 的引用分析是自动化的。没有人可以点击选择按钮,做出决策并过滤材料。这就是说,不可能有严格的质量控制。这也是 Name of journal 上的出版物被当作参考文献来引用、以及 Title of article 目前有128次引用的原因。而且正因如此,再加上缺少元数据,最近添加的 academia.edu 的内容出现了重复引用。
3. 由学者制作个人主页。学者有形成更大的影响力的动机。h 因子(一个混合量化指标,用于评估研究人员的学术产出数量与学术产出水平)和引用次数某种程度上与作品的评价有关,还会影响其他人投资,招聘的决策。在没有任何限制和控制机制下,出版物和共同作者可以被手动添加到 Google Scholar 上,这是操纵系统数据的一个好机会,而有些人可能会觉得难以抵抗这个诱惑。先不说那些恶意行为:学者也是人,是人就会懒惰。如果 Google Scholar 告诉他们可以自动更新他们的出版物列表,他们一定会这样做,这样的结果不仅非常滑稽而且对我们不利,我们在下面将会看到。
为了阐释这些观点,我们先看看两位知名学者的 Google Scholar 个人界面:Author 博士和 Et Al 教授。
Author 博士
输入 A. Author 博士,你会发现,他在引用分析方面排名第二,h-指数为30 ,引用次数超过 3500次,最有影响力的论文包括目前引用 159次的 Title of article 和128次的 Title of paper 。让他有点遗憾的是,他1990年写的 Instructions to authors 影响力稍差一些,不过可能只是时间未到。Author 博士在很多领域中都很活跃。他喜欢写模板,社论,前言,而且还以生产同行评审的论文而闻名。他有好几个名字,Andrew,Albert ,或 Anonymous (匿名),但大多数人只简称他为 A,而Google Scholar 对此非常乐意。
A. Author 的个人界面
Author 博士提醒我们,Google Scholar 的引用是自动化系统完成的,因此不可避免地将会有各种杂音。他的个人界面简单地归纳了属于 A. Author 的东西,这个列表根据 Google Scholar 推荐的设置进行自动升级。Title of article 这样的文章引用次数超过100,有点让人匪夷所思,特别是只有几个引用文献是其他模板。 A. Author 一些论文引用率较高似乎是资料源的元数据不完整;还有一些文章好像只是简单的错误语言分析;还有一些是正确的,如果认为社论经常由匿名作者书写的话。不论如何,这都表明上面有大量的不明来源的内容和引用,其中一些内容可能很容易就被认为是一些人或出版物的作品,但其实并不是这样。
当然,这只是不良数据引起的巧合——无用输入,正如他们所说。真正的维护个人页面的科学家能够依靠更可信的列表。 他们可以吗?
Et Al 教授
进入 Et Al 教授的主页:她拥有 333 的h-指数及将近100万的引用次数,她无疑是世上最有影响力的科学家,超越了像佛洛伊德,福柯和弗里斯(Freud, Foucault, and Frith)这样的高引用率学者。她的 Erdős 数是1,且在科学计量学、文献计量学、质量控制和绩效评估方面位列学科第一;事实上她关心并联系着任何一门学科。她是怎么做到的呢?答案就是(i)以她的名字创建一个简介,(ii)盲目添加上Google Scholar所推荐的为她所写的出版物;(iii)遵照推荐的设置,她可以自动更新个人资料。哦,这是因为Google Scholar允许她那样做,她还手动添加了更多确信是自己(包括其好友Paul Erdős)写的论文。
et al.的个人简介
Al教授提醒我们Google Scholar的简介是由学者完成的。而学者是人类,是最善良的物种——但他们也可以是天真,懒惰或比这更糟的。Al教授开始时只是简单做一些大多数学者在创建新简介时会做的事:遵循指示及推荐设置。如果你胡乱为之,Google Scholar也会将任何与你的名字不沾边的东西添加到你的简介中,这几乎就可以确保简介最终会高估你的科学贡献。
由于学者们的自动更新特征,要找到这种额外填充型简介的实例并不难。以佐治亚理工学院的 Yi Zhang 这个名字为例,拥有着 40.000+ 处引用和高达70的h-指数,他无疑是最成功的博士生。这就是 Google Scholar 推荐的「自动更新」功能,可以让名字十分普通的简介大放异彩。事实上还有一个 Yi Zhang ,在Chomsky,Sag,和 Kiparsky之后排名第四。他被引用最多的论文达到了 306 次,且他的作品总和——刚好总共1000份出版物——不知何故已经收到了 23,000 多次引用。(注意排名中的#5 和 #6也是自动更新的简介。)
所有这些主要都是无公害乐趣,直到你发现某个简介可能在声称一些并不存在的出版物及引用。有个相关案例:在一位呼吸系统疾病方面的专家 Giovanni Arturo Rossi 的简介中,他一直在扫荡我的同事 Giovanni Rossi 的出版物,而后者从事的是社会交互工作。学者们在搜索结果中自动将作者名字链接到简介中,以防止有人从出版物中找到真正的Rossi,除非他自己手动将这些Arturo所声称的出版物添加到自己的简介中。
如果你有一个大众名,你将不得不手动编辑自己的每一个新出版物,否则Rossi (或 Smith,或 Zhang)就会将它自动添加到他们的个人简介中。此外如果你还盲目遵照Google Scholar的推荐设置,那么你将乐于看到自己的高h-指数,不过它可能是错误的(比如 John A. Smith,独立学者,23428 次引用,h-指数为64!)。因此我能给出的最普遍建议是:不要让 Google Scholar 自动更新你的简介,如果非得那样做,请记得定期清理,否则看起来会很蠢。
目前列举的都是一些 Google Scholar 的推荐设置自动更新出版物表单的案例。看起来这些作者不像是会(好吧,或许 Author 博士和 Et Al 教授除外)积极添加一些非本人所写的出版物,或声称自己曾与Paul Erdős共事。不过这里要说的是:实现这种做法不光是可能的,更是轻而易举的,像Et Al教授的超级明星简介那样。在成千上万的活跃简介中,肯定会有一些烂苹果。
这会产生什么后果呢?如果你正当使用 Google Scholar 的话什么也不会发生:它是一个有用但不完美的工具。然而许多人是在更认真地对待它。如果你从事的是筛选人才的业务(例如审核工作应用或寻找潜在的会议发言人),那么 Google Scholar 提供的结果将排在考量第一位,它是个很有吸引力的选择。这里甚至有一个R包来帮助你提取引文数据,并仅仅基于引用数和h-指数来给学者排名。由于排名结果已被自动更新的幽灵简介稀释,这些业务都比较冒险。
重申一下:我很喜欢 Google Scholar 并每天都使用它,让我以此作为结束。它可以是一个极其有用的工具。而就像所有工具一样,它也可以被误解、误用甚至拿来玩耍。如果你知道自己在做什么到还好,但如果你认为可以盲目相信它,请再看一下 Author 博士和 Et Al 教授的工作。
哦还有一点。如果你正在组织一个科学计量学或文献计量学方面的会议,或者正在寻找一个质量控制或绩效评估方面的新人 ,一定要看一下这些领域中排名最高的那些人。我相信你肯定会发现一个排名最高的人,而且她一定值得你的邀请。
©本文由机器之心编译,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者/实习生):hr@almosthuman.cn
投稿或寻求报道:editor@almosthuman.cn
广告&商务合作:bd@almosthuman.cn
点击「阅读原文」,查看本文英文原文↓↓