灵魂布外衣:局部差分隐私的新型实现方法
摘要:有效的隐私保护数据发布解决方案之一是局部差分隐私,随机响应是实现这种隐私保护模型的有效方式。对基于二次扰动的局部差分隐私实现方法进行了研究。为衡量D和D'的离散程度,在计算原始数据集和扰动数据集的分布均值和方差的基础上实验验证了D和D'间的KL-散度。实验结果表明本文所采用的二次扰动方法可以带来较小的效用损失。
关键词:局部差分隐私;随机响应;二次扰动
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)30-0234-02
Abstract: One of the effective privacy protection data publishing solutions is local differential privacy, which is an effective way to implement this privacy protection model. This paper proposes a local differential privacy implementation method based on secondary perturbation. In order to measure the degree of dispersion of D and D', the KL-divergence between D and D' is experimentally verified on the basis of calculating the mean and variance of the distribution of the original dataset and the perturbed dataset. The experimental results show that the secondary perturbation method used in this paper can bring less utility loss.
Key words: local differential privacy; random response; secondary perturbation
1 引言
对于企业来说,在数据收集、使用以及公布的过程中,用户隐私不可避免地暴露在外。2006年,Netflix举办了一个名为Netflix Prize的预测算法的比赛,结果导致了用户身份的泄露[1-2]。
k-anonymity、l-diversity、t-closeness[3]方法常被用于隐私数据的保护,这些方法的提出在一定程度上抵御了隐私攻击,但这种基于分组数据产生的隐私保护模型会随着攻击方法的不同而做出相应的改变。基于以上的原因,人们需要一种鲁棒性比较好的隐私保护模型。2006年,微软研究院的Dwork[4]提出了差分隐私的概念,从而使这种隐私保护模型成为可能。
2 局部差分隐私实现
局部差分隐私:给定n个用户,每个用户对应一条记录。给定一个隐私算法M及其定义域 Dom(M)和值域Ran(M),若算法M在任意两条记录t和t'(t,[t'∈dom(M)])上得到相同输出结果t*([t*∈Ran(M)])满足下列不等式,则M满足ε-局部差分隐私。
局部差分隐私的定义从理论的角度保证了算法满足ε-本地化差分隐私,而实现ε-本地化差分隐私保护需要数据扰动机制的介入。随机响应技术[5]的基本思想是以一定的概率将另一个值cj替换原始数据集中的每个ci。我们使用θj,i来表示类别ci被随机化为cj的概率,其中i, j=1, , n。我们用P*(ci), P(ci)分别表示扰动数据,原始数据中ci的概率。
在上面的等式中,原始数据集分布[P]是我们试图找出的。而扰动数据集分布[P*]可用每个类别的频率来估计。
实现局部差分隐私的关键在于随机响应矩阵M的构造。二次扰动具体实现要在多值属性的基础上进行构造,设属性Ak具有m个属性值,分别用v1, v2, …, vm表示。若Ak=vi (i=1, 2, …, m)在原数据集中所占的比例为,则采用均匀扰动得扰动矩阵MB为:
3 实验
为了实验的准确性,采取的是美国1994年人口普查数据库抽取而来的Adult数据集。本文进行四组隐私预算ε的实验,分别为组1(ε1 =0.2,ε2 = 0.8)、组2(ε1 =0.3,ε2 = 0.7)、组3(ε1 =0.4,ε2 = 0.6)和组4(ε1 =0.5,ε2 = 0.5),为达到度量这方面的目的,利用平均KL-散度度量原始数据集D和扰动数据集D'之间的距离,数据集分别划分为L=(1K、2K、4K、8K、16、30K),由此得到如图1所示的对比图。
图1(a)是对数据集D分别进行四组隐私预算限制下的数据集扰动,在得到D'后,根据数据集L的分片数据进行一次平均KL–散度的计算结果。由图可看出四组实验均有一定的扰动误差,为了减少随机扰动的偏差,本文又做了十组实验得到图1(b),由图1(a)和图1(b)的对比得到两个结论:(1)表明扰动误差得到了较好的减少;(2)组3(ε1 =0.4,ε2 = 0.6)时D和D'间的平均KL–散度值最少,这表明本文的方法在保证了局部差分隐私的同时有着较好的数据效用。
4 结束语
实验结果表明本文所采用的二次扰动方法能更好地保持原始数据集的分布特性,在数据效用和披露风险方面具有较好的效果。然而,文中还有不完美的地方,主要是关于数据集仅限在单表数据库的处理,下一步我们将对多表数据库时如何扰动进行研究,以更好的维持数据效用,保护用户的隐私信息。
参考文献:
[1] Zhang J, Cormode G, Procopiuc C M, et al. Privbayes: Private data release via bayesian networks[J]. ACM Transactions on Database Systems (TODS), 2017, 42(4): 25.
[2] Zhu, T., et al., Differentially Private Data Publishing and Analysis: A Survey. IEEE Transactions on Knowledge & Data Engineering, 2017. 29(8): p. 1619-1638.
[3] Mancuhan, K. and C. Clifton, Statistical Learning Theory Approach for Data Classification with l-diversity[C]//. Proceedings of the 2017 SIAM International Conference on Data Ming. Society for industrial and Applied Mathematics, 2017: p. 651-659.
[4] Dwork C. Differential Privacy[C]// International Colloquium on Automata, Languages, and Programming. Springer, Berlin, Heidelberg, 2006:1-12.
[5] Huang Z, Du W. OptRR: Optimizing Randomized Response Schemes for Privacy-Preserving Data Mining[C]// IEEE, International Conference on Data Engineering. IEEE, 2008:705-714.
【通聯编辑:梁书】
最新文章
- 灵魂布外衣:局部差分隐私的新型实现方法
- 南京变态杀人:浅谈Android中用自定义View实现折线
- www.a2kk.com:移动介质管理系统在军工企业的探索与
- 花蝴蝶与野玫瑰:符号识别系统设计及FPGA实现
- 361白银投资网:高校信息管理系统中大数据技术的
- 春卷舒婷:C—SIM感应卡在交通支付中的应用研究
- 黑衣人2中的女反派:C语言程序设计实验教学方法
- 鸽子树胶原蛋白:基于教师教育基地构建师范生教
- zuoaizishi:以就业为导向的中职计算机教学模式探讨
- ipz-056:百万工业APP赋能工业互联网
- 连滩古建文化景区:地铁沉降观测数据处理软件设
- 022天津交友网:基于企业私有云的协同设计应用探
- 雯雅婷5攻略:创新创业从这里扬帆起航
- 承德一中录取分数线:万国数据发布战略级云连接
- www.61ppp.com:海尔COSMOPlat平台赋能企业转型
- www.scjj.gov.cn:湖北政务服务APP即将上线
- wuliu.taobao.com:跟上智造转型步伐 快速响应客户需
- 开膛手杰克qvod:基于Mathematica的电磁场散度和旋度
- 坯布邦:华米发布可穿戴领域人工智能芯片
- 知音行天下:不应被继续忽视的云计算风险
随即推荐
- 【游戏】《攻壳(ke还是qiao)机动队》PVP VR体验
- Merge VR成立100万美元开发基金支持开发者
- ipz-180:基于ExtJS+SSH2技术的安全多层Web框架的构建
- 16亿港币大绑架:基于3D技术智能电网管理系统设计
- 孙田广美:大数据环境下的网络信息安全
- VR线下体验服务商Nomadic完成600万美元融资
- 有奖话题丨「妖神战」激活码,你不来就血亏啦
- 超级修真低手:阿里巴巴45亿元战略投资汇通达,
- 青衣侑酒:一种无线通讯配置系统的架构设计
- ChinaJoy2017 参展VR/AR厂商信息汇总
- 河童遗骨:韩国开发出柔性电子皮肤
- 薄猴皮:亚马逊推出Echo Look摄像头
- fesco葛晓菲:基于JavaEE的在线考试系统的研究与实
- 弱妾:深层次网络安全主动防御系统的应用
- 绀野子:Veritas推出数据保护解决方案NetBackup 8.1.
- 库米沙的垃圾袋:基于倾斜摄影测量技术构建三维
- 钱宝网张小雷被抓,P2P还有多少“雷”可以踩?
- 2017年度•中国服务机器人品牌评选授牌,这些企
- 高中生撂倒抢匪:航天远程医疗系统设计
- 老人与海吉他谱:表格软件Excel 2007在输血科出入库