这种扰动方法有许多有趣的特性

Solve china dataset issues with shared expertise and innovation.
Post Reply
roseline371274
Posts: 943
Joined: Mon Dec 23, 2024 8:17 am

这种扰动方法有许多有趣的特性

Post by roseline371274 »

6. 然后通过将扰动应用于初始值来获得扰动值(这里 3 + 2 = 5)。

7. 在广播数据文件(子图 d)中,扰动值 5 取代了初始(未扰动)值 3。


• 尽管完全随机(由于密钥的随机性),但它保证无论它出现在哪个数据表中,始终对相同的计数施加相同的扰动。这是因为单个密钥是一次性固定的;

• 转换矩阵遵循某些约束,保证最终产生的统计数据不会引起任何系统性偏差(无论是向下还是向上)。换句话说,通过应用这种方法,统计数据会经常向下和向上扰动,以便保留平均值。这确保了在实践中,从扰动数据分析中得出的结论与 兼职数据 从未扰动数据中得出的结论相似;

• 转换矩阵的选择还可以保证——如果需要的话——扰动值永远不会取某些值。在图 2中的简化示例中,这些是值 1 和 2:初始值和矩阵中的扰动的任何组合都不能导致扰动值为 1 或 2(例如,1 只能被 -1、+2 或 +3 扰动,而不能被 0 或 +1 扰动)。

求职者数据实际使用的矩阵更为复杂,并保证没有扰动数据介于 1 和 4 之间。INSEE 在 2025 年传播 QPV 时使用的转换矩阵仍然保证没有扰动值低于源的保密阈值(求职者数据为 5,健康保险受益人数据为 10,等等)。虽然从理论的角度来看,这种特性本身并不是保证令人满意的保护水平的绝对必要条件,但它仍然有助于实现令人满意的保护水平,并且使数据中断所提供的保护更加切实。

一些使用注意事项,但扩展和简化了数据的使用
然而,这种方法在使用数据时需要采取一些新的预防措施:

• 最大偏差固定,较小的值比较大的值相对更受干扰:因此,最好不要从与这些小框的比例很重要的表格相关的分析中得出太强烈的结论;

• 将总数分解成基本组成部分不再准确。例如,在求职者文件中,干扰后求职者的总数通常与按年龄段细分的求职者人数总和不一致(而未干扰的数据则是这种情况)。这种“可加性的丧失”在保密机制中发挥着作用:如果一种破坏性的保密方法试图保证总数与其分解之间的完全一致性,那么某些分解(尤其是小数分解)的保护就会被削弱。
Post Reply