用机器学习思维绘制新兴产业蓝图

jrineakter · Post by **jrineakter** » Thu Feb 20, 2025 6:08 am

新技术是研究与创新 (R&I) 政策制定者渴望实现的一个难以捉摸的目标。他们之所以感兴趣，有三个原因：

进入经济：那些率先在某项新技术上取得比较优势的公司和地区很难被竞争对手取代，因此最终会占领大部分市场。
嵌入性：其中一些新技术具有“通用目的”特点——它们可以应用于其他领域，使其更具创新性、生产力和竞争力。
新兴失败：在技术生命周期的早期，其商业模式和技能需求存在不确定性，这可能会阻碍甚至中止其发展。政策可以通过资助试验台和示范者、提供融资渠道、解决技能短缺等方式帮助避免这种情况。
但我们如何找到有关新行业现状、现状和挑战的证据呢？不幸的是，这并不容易。我们用来衡量经济的框架和类别（行业代码）未能涵盖新行业，因此官方数据对衡量它们没有多大用处。由此导致的证据缺乏阻碍了政策周期各个阶段的政策制定，使得我们难以了解新行业的现状、确定参与制定适当政策的利益相关者以及衡量这些新干预措施的影响。

沉浸式经济，包括开发与虚拟和增强现实相关的技术、内容和服务的公司，是一个具有多种应用（从媒体和游戏到教育和制造）的高潜力领域的绝佳例子，英国被认为在该领域具有强大的比较优势，但关于该行业状况的证据却非常缺乏。

今天，英国创新署发布了我们起草的一份报告，旨在着手解决这一问题，希望为英国正在实施的一系列加强沉浸式体验的政策提供更好的证据基础，尤其是产业战略“未来观众”的挑战。[ii]

您可以在此处下载报告并阅读有关其调查结果求职者数据的更多信息。在这篇博客中，我们想“深入了解”该项目，并向您展示我们开发的一些机器学习管道，以应对在大数据大海中找到创新领域的挑战，并为政策制定者生成相关信息。

这是一个（机器学习）管道
机器学习 (ML) 是一门学科，也是一组用于根据数据生成预测的算法。监督式机器学习根据示例（标记的数据集，我们在其中训练算法以找出观察结果的哪些特征可以预测其标签）进行预测，而无监督式机器学习则根据观察结果之间的相似性进行预测（即，将观察结果归类为我们可能感兴趣的组或“集群”）。

在 Nesta 的创新地图绘制团队中，我们一直使用机器学习来在我们处理的大数据堆中寻找创新领域（我们不可能检查每个观察结果以找到我们感兴趣的领域）。正如我们将看到的，这需要创建以有趣的方式连接数据集的管道，以及一种侦探心态，将您已有的数据视为您可以在其他数据集中跟进的线索来源。

我们将依次介绍这些管道的某些阶段。

使用网络文本查找沉浸式公司
由于我们没有沉浸式的行业代码，因此无法使用官方统计数据来衡量该行业。有贸易机构和行业网络（特别是委托进行这项研究的 Immerse UK），但我们无法确定它们的覆盖范围。我们遵循机器学习的思维方式，将这些行业网络视为相关观察的标记数据集：我们希望找到其他类似的网络。

但是在哪里呢？

这正是Glass 的用武之地。这是我们在这个项目中合作的一家大数据初创公司，他们“读取”了数十万个英国商业网站的数据。Glass 利用这些数据训练了一个机器学习模型，以确定商业网站中的哪些术语可以高度预测一家公司是否自认为是沉浸式的（基于标记的数据集），然后使用该模型预测其他可能采用沉浸式的组织。这种监督方法通过对在其网站中提到沉浸式相关术语的公司进行“关键字搜索”得到增强，并得到了我们在Immerse UK 的朋友的验证。[iii] 最终，这项分析为我们提供了英国约 2,000 个独立组织的列表，以及来自 Glass 的元数据——例如他们的行业、他们的地址（基于网站上的邮政编码）和来自他们网站的其他数据——这些数据后来在预测组织规模时很有用，例如网站的大小、入站和出站链接的数量、个人资料的数量以及网站上的招聘广告。