语义网不仅有朋友和支持者,正如菲尔·阿彻 (Phil Archer) 在 2014 年主题演讲中的这句话幽默地说明的那样。它通过对比两个相互建立但来自不同传统的高度兼容的标准,表达了许多 IT 开发人员与语义网标准之间的距离——虽然有些激烈,但却是准确的。那么,数字版的下一步真的是基于资源描述框架(RDF)的语义网吗(尽管有些人非常不喜欢它)?[1] 能否通过本体的帮助,通过链接和语境化语义标记,为文本的科学研究创造附加值?在当前的数字版概述中根本没有出现这样一种观点。[2]这里的语义层次是指正确的标记,即根据既定标准(如 HTML)注释标记。 B. 文本编码倡议(TEI)的指导方针。[3] 现在也出现了一些批评的声音,例如例如,Sebastian Rahtz 认为,由于 TEI 标准高度多样化,因此仅部分适合链接不同的数字版项目。[4]然而,到目前为止,只有相的人文学科研究中,特别是文本的数字版中能发挥什么作用。[5]
在本文中,我想尝试从一个特定的角度并基于两个相互关联的项目的描述来回答这个问题。第一个例子是 2012 年至 2015 年期间为哥廷根科学院哥廷根数字人文中心 (GCDH) 开展的研究项目。在该联合项目中,哥廷根大学、该校的州立和大学图书馆 (SUB)、科学数据处理协会 (gwdg) 以及科学院和沃尔芬比特尔的赫尔佐格·奥古斯特图书馆都参与其中,共同努力向这一被称为语义 阿尔巴尼亚电报数据 网或›语义技术‹和人文学科中的链接开放数据 (LOD) 的承诺更进一步,并获得了语义丰富版本的初步经验。第二个例子是目前正在进行的一个项目,叫做 PANDORA,它是由 Christopher H. Johnson 设计的,是哥廷根科学院长期项目的一部分,从某种程度上来说,它是 GCDH 研究的延续。它使用相同的材料,但在框架和工具层面采用了不同的方法。这两个项目不仅在物质基础上相互联系,而且通过在语义网中链接数字版本的目标也相互联系,从而使它们成为更大的、机器可读的知识库的一部分,有朝一日可以在未来实现全新形式的情境化知识。
这些努力的重点是进一步开发和链接数字版本的问题,通过本体和标准数据朝着知识网络的方向发展,该网络由于其基于自然语言的语义能力而被称为“语义网”。但是,语义网是什么?对于从事文本科学编辑(例如在历史或科学史背景下)的人来说,像 LOD 这样的流行词实际上意味着什么?本文以蒂姆·伯纳斯·李 (Tim Berners Lee) 的一句名言作为对语义网发展和潜力的简要概述作为开端,蒂姆·伯纳斯·李是万维网的思想之父,也是语义网自然发展的创始人和宣传者。