3.4 机器学习
机器学习过程在创建的训练集上开始。目的是逐渐改变算法的变量参数,直到过程的结果尽可能接近指定的标准。
所述项目的经验表明,可以使用某些关键词来识别大量主题。这意味着可以在这里使用在单词级别操作的通常的主题模型方法。正如语料库语言学工具开发的经验表明,有许多其他步骤可以帮助算法更容易地进行主题建模。已知方法证明,例如使用词形还原可以显著提高关键词的识别率。幸运的是,语料库语言学中已经开发出了一系列的工具,可以作为这里的一种技术使用。[32]
为了使论证过程在原文中清晰可见,有必要对原文进行划分。为此,建议将其分为段落,因为段落通常代表文本的论证单元。如果使用前面的主题模型方法,算法的主题由一组单词组成,每个单词都以特定的概率出现在那里。这样理解的主题与分析单元(即段落)现有词语之间的一致性可以表示为速率(介于 0 和 1 之间)。请注意,一个段落中可能有多个主题,其匹配率不同。这种情况表明此类主题的内容接近,可以在以后的分析中使用。
3.5 在测试集上验证结果
在训练集上准备好算法之后,可以用指定的参数再次检查。如果训练集和测试集都是从语料库中代表性地选择的,则在测试集上识别的主题和手动分配的主题之间应该实现与原始集一样高的一致性。如果两组的一致性存在显著差异,则表明算法的训练过于片面。在这种情况下,要么选择的集合不具有代表性或者太小,要么主题的表述太模糊,要么算法必须再次修改。如果结果达到预期结果,则可以进行进一步分析。匹配率,称为召回率和精确率,即正确分配的主题与错误分配的主题的比例,表明主题模型程序的结果有多有意义。
如果没有根据事先研究的规范来检查结果,则存在一个普遍的风险,即研究问题随后会过度适应研究结果,从而也适应所用方法的数学模型。对于技术条件的无知和没有验证的可能性,对于专业历史学家来说很难被接受。然而,这意味着某些问题被错误地排除在研究之外。只有通过反思和检查结果并增加方法论理解才能避免这种情况。
3.6 分析/结果
以下是对上述程序所得结果进行分析的建议。源文本中识别的主题提供了有关各个文本结构的信息。这样,文本的主题就形成了一个网络,其中的主题形成节点并表明源内主题彼此的接近程度。[33]针对不同的文本,会出现不同的网络。如果对所研究的主题复合体进行历史发展检查,例如在按时间顺序连续的文本中,这可以表现为可以在所有文本中找到的固定、不变的“小主题”的相应网络的多变性,或恒定网络中主题可观测量的多变性。主题可观测量的变化意味着虽然同一主题在不同的文本中被识别,但其表述方式不同或新,例如,关联词组的组成对于不同的源文本而不同。需要注意的是,使用词组形成主题时,不考虑句子中单词的顺序,所以只能识别句子内容,而不能识别语义结构。如果主题网络和主题可观测量都存在变化,则这种观察的意义就较低。在这种情况下,概念和知识网络都会发生变化。这意味着语料库过于异构,主题的粒度太大或太小。
在“光谱分析”项目的文本中可以找到反复出现的论点。[34]特别是讨论光谱分析的天文学意义,特别是使用新方法识别太阳原子成分的可能性的文章,也强调了光谱分析是一项令人印象深刻的发明。这种重视科学进步的论证形式在后来的其他出版物中也可以找到。光谱分析为科学提供了许多新的可能性,这里进行的分析可以表明,识别太阳元素对于广大公众和科学界的认识至关重要。
在评估“儿童世界”项目中的战争主题时,可以清楚地看出战争主题虽然相关,但并不是主导主题。正如本文所概述的,其中最重要的包括拿破仑战争、七年战争、波斯战争和伯罗奔尼撒战争等主题。由此得出的一个结论是,研究期间的孩子们在历史教科书中了解欧洲(和世界)更多的是通过战役和战争而不是贸易关系和发明,因为这些是乍一看不太明显的话题。
4. 总结及进一步发展的建议
所提出的程序有助于明确和更好地理解自我制定的主题,从而支持研究。这也使得识别以前未考虑过的主题成为可能。通过识别段落中的主题可以揭示文本的结构。例如,这样不仅可以比较后续研究中的文本结构,还可以搜索抄袭、引用和抄本。该程序也被视为现有方法的进一步发展。例如,我们认为 Peter Andorfer 的研究还不够深入,而且还没有为未来的研究提供任何新方法。他所提出的方法也在本文所介绍的研究背景下进行了测试,并且如上所述,带来了以下挑战:纯手动主题分配不具备机器处理的可重复性、透明度和效率;相反,纯机器处理无法像手动处理那样捕捉复杂主题,这使得结果评估更加困难,并对质量保证提出了更高的要求。为了解决这些问题,这里提出的建议是通过迭代地处理训练和测试集来结合两种方法。通过这种方式并专注于“小主题”,可以以透明和可重复的方式获得有意义的结果。按照Wettlaufer的分类,这里提出的方法可以归入语义技术领域。如上所述,这些方法适用于不同类型的文本,经过适当处理后,可以重新用于语义网应用程序。
鉴于历史学家和计算机科学家的培训现状,在开始一个项目之前明确商定工作方法、程序 阿根廷电报数据 和目标至关重要。我们区分工作和程序,因为前者更多地涉及有关工具和方法的协议,而后者涉及单个工作步骤。主题本身并不能提供答案;它们总是需要相应学科的解释。正如上面的例子表明,技术专业知识对于主题的科学解读是不可替代的。尽管研究问题和研究兴趣因学科任务而异,但改进主题建模的方法示例清楚地表明,至少需要背景知识才能使主题更有意义。要确定主题,您需要可以解释的关键词。这些可以是专业术语,也可以是或多或少知名的人物、朝代或领土。列出的二手文献已经广泛讨论了这一主题并测试了多种方法;目前已经有人尝试对主题进行自动标记。[35]
各种来源类型的差异也导致分析的差异。例如,虽然对于第一级教科书分析来说,简单地推断主题的分布非常有意义,但科学历史方法需要能够更有力地反映变化和趋势的模型。然而,这些不同的源类型以及二手文献和“灰色”文献中的大量不同例子表明,原则上任何类型的文本都适合主题建模,只要在建模中考虑到各自的细节。这是一种新技术、新方法,但获取知识的基本路径,即通过源内容实现主题分配和主题建模,仍然存在。
总结来说,需要注意的是,主题建模当然适合在人文和历史领域得到更广泛的应用,但所需的精力、费用和成本也不容小觑。这也适用于此处提出的建议,它结合了两个项目方法的优点。如上面的例子所示,这两种方法,即基于选定文档摘录的受控主题形成和针对大型语料库的不受控制的程序,都需要连续的工作步骤,因此原始数据的质量很少会受到研究人员的影响或随后得到根本性的改善。两种方法的目标也不同。 “儿童世界”项目主要关注过滤大量文本并寻找惊喜,而“光谱分析”项目则更关注理解语义的发展。这两个目标都可以视为已经实现了。然而,如果没有历史疑问和专家科学家的解释,这些发现本身就没有什么意义。