键盘打字——男性手,作者Dave Dugdale。CC BY-SA 2.0 通过Flickr。
这次经历让我思考:有人能找到我的复制数据集吗?从我记事起(至少从 1995 年起),我布在某个地方。直到 2003 年撰写的文章都向读者发送了我在 UCSD 的公共 FTP 站点。但自 2003 年以来,UCSD 已多次更改该服务器的名称和文件结构,出于某种原因,他们觉得没有义务保持我的公共 FTP 站点的运行(而且我并不担心复制问题,因此没有考虑将该 FTP 站点移至 NYU)。幸运的是,如果有人给我写信,我通常可以找到复制文件,如果我找不到,我的各种更细心的合著者可以找到数据。但我确信我不是唯一一个在过时的服务器上拥有复制数据的人。值得庆幸的是,《政治分析》要求我将我的数据放在《政治分析数据库》上,这样我就不必再记住要做一个好公民了。我的决心是从我自己的哈佛数据库上获取尽可能多的旧文章的复制数据集。一旦完成,我就不会那么虚伪了。如果其他作者能够效仿 Jan,那就太好了!
可能不太令人满意的结果与PNAS上最近发表的一篇关于Facebook 社交传染实验的文章有关。作者在脚注中表 股东数据 示,可以通过写信给作者获得复制数据。我写了两次信,给了他们一个月的时间,但没有收到任何回复。然后我写信给PNAS的编辑,他告诉我,主要作者当时正在度假,并且对这篇文章的回复不胜枚举。我保证支票会寄到。
哪个编辑愿意为回答有关复制数据集的询问而烦恼?哪个作者愿意为度假而烦恼(并忘记设置度假消息)?如果 PNAS 能够遵循《政治分析》、《美国政治科学杂志》 、《政治科学季刊》 、 《计量经济学》以及(如果传言属实)即将推出的《美国政治科学评论》的良好做法,要求作者在文章实际发表之前在杂志网站或 Dataverse 杂志上发布所有复制材料,那么对于作者、编辑和我来说,世界会变得多么简单?为什么不是每本杂志都这样做呢?
第二个最佳方案是要求作者将他们的复制品发布在他们的个人网站上。从我的经验来看,这通常会导致 URL 丢失或无法使用。虽然这里的简单解决方案是 Dataverse,但作者至少应该提供一个标准文档对象标识符 (DOI),即使机器名称发生变化,该标识符也应该保持不变。但 Dataverse 解决方案做到了这一点,而且功能更多,以至于在当今时代,所有期刊都不使用此解决方案似乎很奇怪。我们都可以成为好公民,将我们自己的复制前标准数据集放在我们自己的 Dataverses 上。所有这些都比维护私人数据网页一样容易(甚至可能)更容易,而且人们可以放心,他们的数据将一直可用,直到哈佛大学倒闭或太阳熄灭。
特色图片:Fleshas CC-BY-SA-3.0 的 BalticServers 数据中心,来自Wikimedia Commons。
纳撒尼尔·贝克是纽约大学政治学教授。他的兴趣在于政治方法论(狭义和广义),以及处理政治学问题的统计问题。