面影响很可能意味着“智者”权威的

Solve china dataset issues with shared expertise and innovation.
Post Reply
Bappy11
Posts: 477
Joined: Sun Dec 22, 2024 9:30 am

面影响很可能意味着“智者”权威的

Post by Bappy11 »

论桥梁还是‘恶意收购’?”体现出的不确定性在重大(信息技术)变革过程中相当常见:传统专家失去重要性,而新型专家变得更加重要,有时甚至比既定的权威还要重要。 1979年,伊丽莎白·艾森斯坦(Elizabeth Eisenstein)详细描述了信息技术迄今为止最重大的变革——印刷机的出现。[1]计算机科学引入到许多其他科学领域(如生物学),也引起了所需专业知识的巨大变化,一些老学科的优秀代表被新的发展所淹没(例如,面对分子生物学和生物信息学的出现,现场生物学)。

本文的目的并不是要淡化此类发展和变化所造成的不确定性,甚至否认其问题性质,因为积极的科学讨论最终也将使这一领域的真实情况得以区分。如果我们——或者其他人,那些所谓的“敌人”——能够通过信息技术在人文学科领域取得科学进步,那么数字人文学科就会盛行。我怀疑目前是否存在恶意收购,但人文学科的大规模数字革命肯定会带来很大的变化,而且并不是每个人文学科学者都能从中受益。格哈德·沃尔夫 (Gerhard Wolf) 已经批评了这样的事实:“数字项目消耗了我们核心业务所急需的资源”。[2]

2. 科学的分类——计算机科学属于什么?
1806/07 年,黑格尔在其《精神现象学》中 对自然与精神进行了严格的区分,并且将客观精神归因于更抽象的实体,例如文化或人民,因此也可以对其进行研究。[3]狄尔泰(1883) [4]对自然科学与人文科学进行了区分:物理学或矿物学等自然科学旨在研究自然,即研究不受人类影响而存在的一切事物。狄尔泰还采纳了黑格尔的集体精神思想,认为人文学科不仅要研究个体精神,还要研究人们共同所做的一切事情,这其中就包括例如文化史或建筑。狄尔泰继续说,人文学科的任务是理解人类思想的产物。对于狄尔泰来说,社会科学也属于人文学科,并且他进一步发展了关于这两类学科中适当的方法的思想:在自然科学中发展解释规律,在人文学科中运用旨在理解的解释学。[5]

这种区别在今天的法国自然科学和人文科学部门中仍然存在,这反过来又成为 荷兰科学与人文学院(KNAW )划分自然科学和人文科学的基础。

计算机科学涉及数字信息处理,包括单个过程(算法或计算机)和组织中的数字信息处理。但数字信息处理是人类集体思维的产物,就像中世纪的城市规划、音乐中的蓝调模式、汉萨同盟或现代银行业一样。由此可见,计算机科学作为研究信息处理的科学,属于人文科学,是一门人文学科。

将计算机科学归类为人文科学并不意味着计算机科学不是一门精确(数学)科学;自然科学以外的其他学科也广泛使用数学模型的明显例子。想想计量经济学、建筑学或语音学。此外,计算机科学的某些子学科,如软件开发[6]或软件人体工程学(包括用户界面设计[7]),倾向于使用社会科学方法。

上述结论从结构上看是一个选言三段论:从 AVB 可知,~A 可推导出 B。如果A 或 B且非 A ,则B可推导出。当然,有人可能会说,计算机科学是自然科学还是人文科学的区分是完全没有必要的。人们可以指出第三种可能性是计算机科学的专业归属,例如工程学或社会科学,但这只会吸引部分人,而绝不是所有人,甚至可能不是大多数计算机科学家。

然而,更重要的反对意见是,自然科学与人文科学的分类已经过时了。[8]这种区分的方法论后果对于狄尔泰来说仍然有意义,但现在已经不再有效。在许多人文学科中,现在人们已经对定律进行了研究并运用它们来解释各自领域的现象。只要想一想经济学中的收益递减规律或新语法学家的健全法则即可。相反,当研究人员询问他们的想法之间的联系时,直觉在自然科学中发挥着越来越重要的作用:这是一个旨在理解的步骤。这个思想实验也可能具有相关性。因此,该分类在两个方向上都是不充分的。当我们宣布将一门新学科归类为自然科学而非人文学科时,我们很可能在仔细检查和指定其主题、问题和方法之后知道,该学科与公认的自然科学(物理学和化学)更相似,而不是公认的人文学科(历史和文学研究),但我们了解的并不多。

3. 不确定性及其克服方法
我不想在这里讨论声望、融资等问题上不同学科之间的差异,尽管很明显这是一些同事主要关心的问题。

值得注意的是,计算机科学也经历了一段不确定时期,其特点之一是分类争议。计算机科学是否应该归属于数学——因为毕竟它是关于计算机和计算的(不是?)——还是归属于工程学? 1985 年,我接受惠普公司(一家原本以电气工程为基础的公司)的职位,担任一名计算机科学家。我从电气工程师那里听说,计算机科学对他们来说可能是一门“时髦”的学科,但还不算是实质性的。到 1985 年,计算机和信息技术已经非常成熟,并成为经济因素。作为一门被认可的科学,其声誉尚未到来。

但我们也可以从其他人处理新学科构成的方式中获得启发。约翰·霍普克罗夫特 (John Hopcroft)讲述了他在普林斯顿大学的早年经历。他的系主任要求他教授一门计算机科学课程,但并未具体说明该课程应包含哪些材料。霍普克罗夫特觉得很奇怪,普林斯顿大学想要引入一门新课程,却没有首先明确其内容。然而,他后来总结道:“回想起来,我意识到,那些相信某个学科的未来并意识到其重要性的人,早在他们能够划定其界限之前就会对它进行投资。” [9]

人们甚至可以说得更激进一些,因为霍普克罗夫特谈论的是一门学科,而很多人甚至不准备承认数字人文学科是一门学科。方法和主题的多样性以及有时缺乏与非数字研究的联系受到批评。[10]对此,我同样没有理由担心。许多公认的学科,例如计算机科学和医学,从内部来看有很大不同,应该清楚的是,数字研究有时可用于测试新问题——即使在与传统学科的联系并不明显的地方。

重要的是,我们为各个人文学科做出了科学贡献,并且这些贡献得到了认可。如果我们想给予数字人文学科应有的认可,我们需要指出积极的案例。我曾记录过这种做法在方言学中取得了一定成功,[11]并建议,为了找到令人信服的 DH 贡献,应该向项目提出四个问题,即

是否正在提出一个重要的人文问题,
信息处理是否必不可少,
结果是否经过严格审查(验证)以及
这种方法是否为更大的主题和分析铺平了道路。
并非每个项目都必须满足所有这些要求,同时也要为非传统问题留出空间。但我们看到越来越多的研究报告对这些问题至少可以部分给出肯定的答案。我将在下一节中简要讨论其中的一些。

4. 数字人文学科现状十论
首先,数字人文学科的发展前景看好。在帕绍举行的第一届 DHd 会议(有 320 名参与者!)令人印象深刻地证明了这一论点,但意大利、日本和澳大利亚的 数字人文组织联盟(ADHO) 的新组织也强调了这一点。此外,西班牙(例如Humanidades Digitales Hispánicas)、比荷卢三国(例如DHBenelux)和瑞士法语区(例如Humanistica )的新团体也在策划和开展会议。

其次,以可承受的价格获取研究数据对于改善当前状况至关重要。数字人文学科受益于社会总体发展,即越来越多地投资于数字数据。数字人文学科已经走上了新的道路,对这种学科的必要性才逐渐显现出来,一些有远见的同事、机构、图书馆和公司为此做出了重大贡献。当然,在数据变得更加容易获取之后不久,出现了如此多的活动,这一事实表明人们的兴趣和潜力已经存在。

第三,这不仅仅涉及数据访问。从一开始,真正的信息处理就至关重要。举个例子:如果没有适当的算法,就不可能搜索到文字标准化之前的旧文本,更不用说进行词频统计了。[12]例如,格罗宁根最近的一个项目对三个多世纪以来厄勒海峡(瑞典和丹麦之间)的海关记录进行了数字化,发现了城市名称“哥本哈根”有 300 多种拼写方法。我将在下一节有关潜在结构的部分更详细地讨论这一点。

第四,我们越来越有可能不仅分析相对表面的要素,比如词语(及其频率),正如长期以来在作者身份确定中所做的那样[13] ,而且还可以分析潜在结构,而这正是我们作为人文学者更感兴趣的。 Van Halteren 等人根据标记所分配的词汇和句法特征来确定作者,这是一个完全自动化的过程,可以为文本中的每个单词分配一个句法类别。他们使用标签短序列的频率来识别作者,阿塞拜疆电报数据 并得出结论,句法特征比语言理论预期的更具特色。[14] Hirst / Feiguina 使用部分解析,其中文本中的每个句子(可能只是部分)被剖析。[15]解析过程中分配的类别(及其对)的频率用于识别作者。Hirst / Feiguina表明,他们的方法甚至能够区分非常相似的作家,即勃朗特姐妹、安妮姐妹和夏洛特姐妹。 Wiersma / Nerbonne / Lauttamus 开发了类似的技术来检测移民和母语人士的言语差异,[16]而 Lučić / Blake 使用了一种不同的自动程序,他们特别关注名词短语附近的句法。[17]

第五,数字技术的最大优势可能体现在人们想要分析大量材料的时候。哈佛大学文化组学项目[18]宣称其拥有 »1.5x10 7 « 本书籍。尽管最初的热情在某些细节问题上有所减弱,但该项目仍然体现了一种传统人文学科所不具备的分析类型:大规模分析。我们很容易记住这样一个思想实验:即使一个人每天读五本书,读上 80 年,他也只能了解全部内容的 1%。图 1展示了对一个人的共振进行测量,从而试图回答一个人被提及多长时间的问题。众所周知,名声转瞬即逝,而且总是以新的形式表现出来——例如沃霍尔曾说过,未来每个人都会出名15分钟。测量结果并未反映出任何新的见解,但它确实首次以精确的形式提供了经验可靠的陈述。

图 1:托马斯·肯皮斯 (Thomas A Kempis) 在 500 年前曾提出过一句名言:“世上无名之辈,荣耀归于世!”但文化组学项目不仅证实了这一点,还测量了名声消逝的速度,并表明它正在加速。三条曲线显示了在最初几乎垂直上升之后,提及名称的频率下降得有多快,而最近的曲线显示出最急剧的下降。来源:Michel 等人。 2011年。
图 1:托马斯·肯皮斯 (Thomas A Kempis) 在 500 年前曾说过一句名言:“名声在世上无可替代!”但文化组学项目不仅证实了这一点,还测量了名声消逝的速度,并表明名声正在加速消逝。三条曲线显示了在最初几乎垂直上升之后,提及名称的频率下降得有多快,而最近的曲线显示出最急剧的下降。来源:Michel 等人。 2011 年。
Post Reply