China Dataset

Posted: **Sat Feb 08, 2025 4:20 am**

5. 测试接管结果
5.1 部分结果：柏林古典主义
以柏林经典为例，在项目过程中尝试在技术上重新建立现有应用程序，同时保留其重要属性。为此，将多年来已经有些疯狂的 PostgreSQL 数据库结构中的数据在测试基础上转移到基于文档的数据库（Mongo DB、JSON），并在新的 Web 框架（Express.JS）的基础上重新实现了基于 Zope 的应用程序前端。

这次实验的目的是确定迁移和重新实施的工作量，希望能够长期在统一的软件堆栈上安全地运行一系列更简单的数据库应用程序，并探索通用查看器的可能性，即以相应标准化、规范化的形式实现的简化、通用的数据库展示环境（见第 5.2 节）。尽管转移是手动进行的并且很复杂，但工作量仍然仅限于一到两个人月。尽管原型是根据柏林经典的要求单独定制的，但从一个数据库到另一个数据库的轻松转移原则上表明可以开发通用数据模型和系统结构。在人文数据库领域，目前社区里还没有最佳实践。

从信息科学的角度来看，传输的主要目的是保留数据集和某些搜索功能之间的链接；Web 界面中的呈现类型起着次要作用。然而，专家们对第一架原型机的评价褒贬不一。这主要是因为原始呈现方式（包括所有搜索功能和细节）非常重要，但当转移到通用查看器时，这些内容无法完全保留。对于整个应用程序的长期可用性问题的认识在这些方面被搁置了。因此，移民尝试的目的并不是不言而喻的。只有通过深入、个别的对话讨论，才能获得对结果的一定程度的认可。原型所需的改进通常代表着一种沟通挑战而非技术挑战，因为它们通常涉及细节表示的变化，而非专业人士无法立即意识到其重要性。即使演示文稿的整体布局几乎可以随意改变，但结构或标点符号等某些方面仍然非常重要。

总体而言，很明显，这种迁移策略需要数据中心付出巨大的努力，即使对于复杂度较低的应用程序也是如此，才能获得研究人员可以接受的结果。适应性努力和额外利益之间的平衡导致我们决定以虚拟化形式（在安全服务器上）保留不变的应用程序作为产品组合的一部分。这种所谓的应用程序保存是在没有任何深入的技术干预的情况下进行的，只要在当前环境中保证各个组件的功能即可——同时也考虑到安全方面。

5.2 部分结果：《Opus Postumum》（康德版）
伊曼纽尔康德的《遗作》 (Opus Postumum)可供 HDC 作为数字版研究数据类型的样本进行深入分析。此外，HDC联盟两大合作伙伴BBAW和SUB正在推进更大规模的数字版项目，这也为双方交流创造了良好的机会。下列困境在抽象中是已知的，但只有通过具体的例子才能真正理解：一方面，XML-TEI 中标记的转录涉及高度结构化的数据，需要花费大量的精力来记录，并且原则上为技术处理提供了广泛的可能性。另一方面，TEI 是一个标准，其设计在很大程度上是为了允许奖项适应项目的个性化要求。即使在所使用的标记约定级别，不同版本的项目之间也会出现不兼容性。

Kant Edition 原型工作的目标之一是明确所谓通用查看器（不仅适用于版本项目）的实施方案。其背后的想法是，在将不同版本传输到研究数据中心之后，能够在通用环境中显示它们。用于显示数字副本的DFG Viewer [ 58]可以作为已实现的工具来说明基本的可能性。然而，就像柏林古典电影的情况一样，从中期来看，只有应用程序保存才能在数字版作为网络应用程序的长期可用性方面获得用户的广泛认可。通用查看器的想法将会进一步推进，但由于项目资源有限，暂时搁置。

然而，就康德版而言，底层数据、TEI 编码的转录和注释以及手稿的数字副本本身也可以代表超越应用保护生命周期的价值。因此，HDC 致力于将这些数据以对象为基础进行归档，作为其存储库服务的一部分，并正在制定合适的程序。特别是，要充分利用 TEI 的可能性，以及LZA 环境中常用的METS 标准[59]，以便映射转录和传真之间的逐节链接。作为 HDC 提供的咨询服务的一部分，将有机会确保在未来版本的项目中，任何链接都尽可能一致地映射在数据中，而不仅仅是通过应用程序逻辑创建。

5.3 部分结果：全球移民流动
在 HDC 设计阶段，对将上述Global Migration Flows应用程序转移到虚拟机进行了测试。为此，数据提供商方面准备了服务器-客户端结构，即删除了多余和不需要的组件，并添加了足够的传输技术规范文档。然后克隆环境并将其转移到符合规范的虚拟机。

在这次测试转移过程中，我们发现数据中心数据可视化的多层性质带来了两大挑战。一方面，需要转移完整的服务器-客户端结构。这还包括对外部应用程序的依赖，例如地理信息系统 (GIS)、标准文件（如 GND）或字体。为此需要考虑的工作量在很大程度上取决于每个个案中服务器-客户端结构的清理或调整的复杂程度。原则上，这是数据提供商的责任范围之内的任务，而不是基础设施提供商的责任，理想情况下，基础设施提供商必须提前对传输进行必要的调整，以符合摄取规范。另一方面，目前还不清楚数据中心能够保证多长时间的提供，因此向外界提供保存的应用程序尤为关键。迟早，IT 特定的安全问题会由于组件老化而出现。这里可能还需要一个身份验证层。

5.4 结论
从HDC设计阶段的典型测试接管来看，对于人文研究数据中心的设计可以得出以下结论：

鉴于人文学科的数据结构日益复杂，研究数据中心需要提供超越基于对象的解决方案的服务，例如存储库。更复杂的归档案例的解决方案通常需要基础设施提供商付出更大的努力，例如在摄取和管理方面，但也需要在 IT 安全领域，例如在特定时间点保存环境时。

开发满足数据提供和数据使用科学家的科学（细节）要求的通用查看器（例如数字版或数据库）需要与社区密切合作，并且需要比最初估计的更高水平的资源。

针对特定研究数据类型的服务必须辅以有针对性的个性化建议和支持服务，以便尽可能有效地将数据传输到研究数据中心，从而减轻该领域科学家的负担。

6. 人文数据中心初步报价
考虑到上面描述的可持续性、展示和集成的科学使用场景（见第 3.1 节）以及复杂数据结构的长期存档的挑战，在 HDC 设计阶段开发了初始产品组合（见图4）。这包括技术提议和为科学家提供的建议和支持，它们相互重叠、相互补充。

图 4：人文数据中心的初步投资组合，截至 2015 年 12 月，自己的图表。
图 4：人文数据中心的初步投资组合，截至 2015 年 12 月，自己的图表。
技术报价：

应用程序保存：鉴于已经存在的 LZA 产品（例如出版物存储库）和相关标准以及基于文件的人文研究数据的 LZA 需求和数据提供科学家预期的高接受度，存储库无疑是每个研究数据中心的核心组件之一。存储库组件确保文件级别的研究数据的长期可用性以及使用持久标识符（例如 DOI 或 ePIC 句柄）进行引用。该存储库计划采用分层访问模型，允许将只能在有限范围内访问或根本无法访问的研究数据存档在存储库中。最初的计划是整合DARIAH-DE 存储库。此外，如果某些对象类型有需要，还将设置或集成额外的存储库。
应用程序保存：应用程序保存允许复杂的数据结构和应用程序（例如数据可视化）保留在其交付状态。它们在交接状态下基本上处于“冻结”状态，即，它们以原始结构（例如客户端服务器、相关应用程序和库）转移到研究数据中心。应用保存的重点在于研究结果和方法的呈现和追溯，而不是研究数据的直接重复使用。出于安全考虑（过时的软件存在安全漏洞的风险增加），研究数据在移交给使用应用程序保存的研究数据中心后只能在有限的时间内呈现。
通用应用系统：应用程序保存在项目结束后才开始，并侧重于已完成项目的数据和结果的展示，而通用应用系统提供了标准化的环境和工具，可供研究人员从项目开始就直接使用，以便在项目结束后，可以以最少的努力将生成的数据和应用程序转移到存储库和/或应用程序保存，并提高它们能够长期保存且不会造成重大损失的可能性。
存储库、应用保存和通用应用系统的主要技术产品由数据提取/结构描述、存储和门户组件支持：

数据提取/结构描述，即在资源和能力允许的范围内，从研究数据中获取内容，不受格式或应用限制。从最基本的层面上讲，这可以是一个平面文件结构，例如纯文本。具体来说，这应该能够合并最初未曾设想过的不同数据集和使用场景。可以预见，这种形式的数据处理将涉及管理工作，而管理工作的提供将必须根据具体情况逐案决定。
存储层：这是确保在 HDC 存储库以及应用程序保存和通用应用系统内传输的研究数据的比特流保存的基本技术基础设施。我们未来计划将这种传统的比特流保存发展成为成熟的长期存档服务。
门户：HDC 门户为用户提供技术产品、咨询和支持服务的相关信息，并作为访问元数据交换或服务网络接口的联系点。
咨询和支持服务：

除了迄今为止描述的技术产品之外，对于 HDC 来说，咨询服务是极其重要的方面，也是服务组合的第二大支柱。它汇集了各种参与者，并就研究数据管理任务和技术产品的使用为科学家提供支持。与出版物管理不同，研究数据管理和长期存档是自助服务产品仅能部分实现的功能，至少目前如此。尽管在研究项目前期进行咨询非常耗费人力，但它可以理想地最大限度地减少项目进一步进行中或项目期末与长期存档相关的问题和成本，或者为展示和后续使用提供全新的可能性。因此，在设计研究数据中心的服务时，不应犯仅仅注重技术服务开发或基础设施建立的错误。

为了满足咨询需求，HDC 计划建立一个数据管理员网络，这些数据管理员不仅驻扎在数据中心，而且还驻扎在相关的科学机构，并为那里的研究人员提供直接支持。数据管理员的核心任务包括为科学家提供研究数据管理各个方面（包括数据管理计划、特定主题的标准、推荐技术和法律问题）的个人建议。理想情况下，这会在整个研究项目期间进行，即从规划或应用阶段的建议到项目结束时支持将研究数据和结果传输到数据中心。建议和支持服务由培训服务补充，培训服务包括在线服务（例如有关如何使用 HDC 产品的材料和有关数据管理主题的教程）和研讨会。虽然这些建议主要针对数据提供者并且针对具体案例，的受众——无论是在频谱还是数量方面——其中还包括那些重复使用数据的人。

HDC 的初始产品组合代表了设计阶段迭代过程的结果。试点接管的结果证实了这些产品高度重视基于科学要求的复杂研究数据类型。然而，它们也导致了目前通用查看器的开发被推迟，主要是由于可用资源和科学家的接受程度相对较低。他们还强调，除了提供技术服务外，还应为科学家提供密集的建议和支持，以便这些服务在修订后的组合中占有更大的比重。

这些最初有限的初始产品将会扩大，同时考虑到其他人文研究数据中心的优先事项和专业澳大利亚电报数据学的反馈，特别是通过 HDC 可用资源框架内的数据管理员网络，例如，如果技术要求和资源到位，将补充提供其他研究数据类型的产品。这种模块化方法的优势在于能够从一开始就提供功能性产品。

7. 结论
一开始的问题是关于人文研究数据中心的报价结构。需要哪些服务才能长期保持人文研究成果的可用性并使其后续使用？

需要注意的是，研究数据中心的具体提供始终必须在科学家的要求和基础设施开发商和运营商的实施条件之间找到平衡。从科学方面来看，研究数据类型和格式、内容、方法、标准和技术的多样性，以及由于各个项目组合而导致的具体实施中的巨大差异，即使在某一研究数据类型内也需要高度复杂的、逐案的解决方案。相比之下，基础设施提供商由于需要高效利用资源以及考虑技术限制和实用性，对标准化解决方案有浓厚的兴趣。 HDC 最初的产品组合集中于一系列研究数据类型，同时为研究人员提供广泛的密集建议和支持，从而实现了这些相互冲突的需求之间的平衡。

由于人文学科的研究数据类型非常广泛，本文讨论的例子仅仅表明了其中的一小部分，未来任何一个数据中心都不太可能单独为它们全部提供解决方案。这只有与其他人文数据中心合作才有可能，因此有必要开发一个合作的、分工明确的服务结构，在这个框架内，各个数据中心每个都专注于人文数据的特定部分，作为一个整体，为尽可能多的人文研究数据或研究数据类型提供解决方案。

China Dataset

但培训课程针对的是更广泛

但培训课程针对的是更广泛