段定义:固定字符串或正则表达式;
有关段的最小和最大长度的信息;
前一段和后一段的定义以及有关其段长度的信息。
分割是基于行的。该向导在原始数据中搜索分段规则所涵盖的行(“段”),以便将原始数据拆分为文章。用户可以选择将分段规则所标识的行算作前面的文章还是后面的文章。然后,向导将规则应用于导入的数据,并将分段的文章存储在存储库中。底层分段规则和时间戳被记录为流程元数据。对于每个导入的文章,段数(即行)也会记录下来,作为一个简单的导入检查:文章长度的明显偏差可能表明文章边界未被正确识别。
3.1.2 第 2 步:从文章中提取文本内容和元数据
第二步,从文章中提取文本内容和元数据。用户可以再次在预览窗口中查看示例文章,并定义从文章中提取元数据和正文的规则。这些规则再次仅识别段,即文章原始数据中的行。每个规则都指定一个标识符。标识符通常是提取的元数据的名称:日期、作者等。与将原始数据分割成文章相比,创建正文和元数据的提取规则的功能更多。用户可以使用各种段属性来提取元数据和正文:
(1)文本特征:
某些文本特征可作为元数据的正面或负面指标。正向指标表明元数据项的存在。负面指标会阻止将某个片段解释为元数据指标。
(2)上下文规则:
段可以替代
文本中可能有其他段的前身或后继,而这些段又包含指示符。
可以根据片段在要分析的文本结构单元中出现的位置来描述片段(例如,在单元的开头或结尾,或者在报纸文章的标题片段之后)。
(3) 使片段成为元数据指标的片段属性的典型示例包括:
某些关键词的出现(“锚点”);
某一类型的单词或字符串的模式出现(例如年份数字、日期模式、名字和姓氏结构)。为了更容易地制定这样的模式,可以创建和集成单词列表;
段的最小或最大长度。
可以在预览文章中用颜色突出显示规则涵盖的片段,以测试规则。用户可以指定规则是否应将整个段存储在存储库中,还是仅存储规则涵盖的段中的区域。可以为一个标识符创建多个规则。例如,作者信息可以出现在文章的多个位置:正文末尾、标题下或作为文章开头的结构化元数据的一部分。
用户创建多个规则并将其保存为模板,然后可以应用于特定的数据结构。为模板指定一个名称。额外的流程元数据存储在模板中:保存每个规则时都会设置时间戳。此外,每个规则都提供了一个注释字段,其中可以记录针对原始数据中的哪种现象创建了规则。最后,模板指定创建的规则需要哪些处理步骤,例如是否需要对数据进行标记或确定词性。
3.1.3 步骤3:文本数据的开发
第三步,将模板放置在项目上以应用规则。骤,并将它们作为表单字段中的默认设置显示给用户。用户可以扩展这些默认设置,例如,是否可以在全文搜索中使用词性等注释。然后用户开始分析过程。首先对文章进行预处理。为了捆绑耗时的处理步骤,模板的规则在预处理之后应用,而无需与用户进行任何进一步的交互。文本内容和元数据被识别并作为数据记录存储在存储库中。
3.1.4 步骤4:清理语料库
探索工作台集成了清理语料库数据的功能。用户可以根据各种标准从语料库中排除记录。排除的记录不会被删除,但会在存储库中被标记。可以指定空文章和短文章的最大长度。该工作台包括检测语料库中的重复和半重复的功能。用户在 0 到 1 之间的范围内选择一个相似度值。对于相似度高于此阈值的文本对,较短的文本将从语料库中排除,而较长的文本将被保留。如果两个以上的文本相同或 孟加拉国电报数据
相似,则保留最长的文本,并排除其余的文本。工作台确定文本中数字和非字母数字字符的比例,以过滤掉不包含连续文本的单元。
通过应用主题模型分析,可以为每篇文章分配主题分布。虽然此步骤不能用于自动排除文章,但主题探索提供了一种有效的方法来手动筛选一组离题文章的候选集。基于手动分类,可以使用机器学习来训练离题过滤器,类似于垃圾邮件过滤器。例如,在我们的项目中,可以过滤掉不属于研究语料主题的历史战争、体育赛事和媒体评论的文章。
3.2 语料库探索的计算语言学方法
这些文本在语料库中可用后,将使用 CLARIN 基础设施[19]的计算语言学工具进行机器分析。这种深入分析对于实现超越简单确定词频的内容相关调查非常重要。
图 4 概述了此处理步骤。数据以 UIMA 格式存储在数据库中以供内部处理。这种表示方式的优点是注释级别可以动态扩展(例如,可以集成在项目开始时尚不知道的新工具)。此外,UIMA还允许多重注释和重叠注释,为差异化分析提供了基础。
认识到计算语言学方法并不完美是一个重要标准,必须通过各种方式传达给最终用户。使用同一级别的不同分析工具(例如几种不同的词性标注器)可以帮助使系统更加健壮:对于难以分析的数据,做出不同的预测,从而增加获得正确解决方案的概率;对于规范数据实例,这些工具会达成一致,从而使分析被认为相对可靠。根据需求,可以使用工具组合来创建 具有高覆盖率/识别率(召回率)或主要注重质量(精确度)的整体系统。