摘要
k-匿名技术是一种应对数据挖掘中链接攻击的有效手段,本文研究了k-匿名化的含义,对k-匿名原则与算法的相关研究进行了整理,对k-匿名化的应用领域及应用前景简单概括和分析。
1 引言
随着大数据分析技术的迅猛发展,研究者以及各个企业、组织更加迫切地需要从大数据中挖掘出有价值的信息。信息挖掘技术为数据交换和共享提供了新的发展契机,但也引发了新的数据安全问题:数据如果不加处理地发布,人们就会暴露在隐私泄露的风险中。尤其是大规模数据拥有者比如医院、政府、大数据公司等,对外发布数据时,不可避免地会涉及到公民的隐私问题。如何最大限度的保护公布数据的统计特征,又不泄露公民的隐私,成为一个重要的议题。
最直接的方法是将能唯一标识一个人的属性(identifier)隐藏,如身份证号。然而数据发布中隐私保护对象主要是用户敏感数据与个体身份之间的对应关系。通常使用删除标识符的方式发布数据无法真正阻止隐私泄露,攻击者可以通过链接攻击获取个体的隐私数据。
为解决链接攻击所导致的隐私泄露问题,k-匿名(k-Anonymity)方法由Samarati和Sweeney提出[1],它要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。
1.1 k-匿名的含义
数据匿名化所处理的原始数据,如医疗数据、统计数据等,一般为数据表形式:表中每一条记录(或每一行)对应一个个人,包含多个属性值。这些属性可以分为4类:
标识符ID(identifier):能够唯一地确定一条用户记录如身份证号,社保卡号等,在表1.1中,标识符为姓名;
准标识符QID(quasi-identifiers):能够以较高的概率结合一定的外部信息确定一条用户记录,单列并不能定位个人,但是多列信息可用来潜在的识别某个人。如表1.1中的性别,年龄,邮编等;
敏感属性(sensitive attributes):数据发布时需要保密的属性。如疾病等;
非敏感属性(non-sensitive attributes):可以公开的属性。
