隐私数据保护的安全算法研究开题报告

 2021-11-20 11:11

1. 研究目的与意义(文献综述)

1、目的及意义(含国内外的研究现状分析)

1.1 研究目的及意义

在这个信息技术和网络化飞速更新的时代,人们愈来愈容易获取到更多的数据信息,随着人们相互间沟通交流的便利性,社交网络也随之产生并逐渐流行起来。社交网络即社交网络服务,它可提供建立社会性网络的互联网应用服务。通过社交网络,我们可以同好友以发送消息、分享内容等形式进行深入的交流。由于其便利性和简单易操作等特性,在网络技术愈加成熟的大环境下,社交网络已经在人们的生活和工作中越来越普遍。同时,随着网络的飞速发展,其中的隐私问题也逐渐引起广泛关注。在社交网络中的隐私数据主要包括用户的身份信息、登录信息、好友信息,以及发表在社交网络平台上的内容以及信息传播等数据。而社交网络中的隐私安全隐患的根本原因则是数据属主的隐私数据在社交网络平台上传播时脱离了数据属主的直接物理控制的,因此可能会造成数据的泄露,使得原本没有查看权限的访问用户甚至是恶意盗取信息的用户查看到数据属主所发表内容。研究如何把数据发布方法和隐私保护技术相结合,并防止用户敏感信息泄露成为当前社交网络服务面临的严峻挑战。随着网络时代信息技术的发展,网络数据逐渐开始大规模的公开,人们可以轻易获取到的信息更加广泛,企业和相关部门收集了大量的数字信息。但是这些未经处理的详细数据数据资料难免会包含着个人的敏感信息,比如医院的患者的就诊和住院信息、人们日常出行的位置信息以及匿名举报者的用户身份信息等等。全面公开或者直接发布这些数据可能会带来个人隐私信息或者其他重要信息的泄露以及个人隐私的侵犯,并不是所有的数据都适合发布和共享,大数据科技技术给人们带来信息便利的同时也带来了隐私泄露的风险。因此研究对私密信息一定保护程度上的处理发布成为诸多研究领域的研究热点之一。除此之外,由于社交网络自身的大规模、自组织、动态拓扑以及资源的有限性等特点,当前针对社交网络安全的攻击行为复杂多样,包括蠕虫攻击、后门木马、拒绝服务攻击、中间人攻击及其他恶意程序等。攻击者可以利用各种工具针对社交络进行私密性攻击、流量分析、节点入侵等,使得其网络安全性面临很多挑战,使得研究设计出有效的隐私安全保护机制是进一步完善社交网络亟待解决的问题。因此,将隐私安全保护引入到社交网络服务以及数据发布中,以解决实际安全问题具有很高的研究价值。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2、研究(设计)的基本内容、目标、拟采用的技术方案及措施

2.1 研究目标

本课题研究目的在于分析当前网络环境下,公众隐私数据的主要特点,进而针对这些特点提出能够有效保护隐私数据的安全算法所必须满足的特点。即从数据源头对隐私数据进行加密的算法有什么要求,需要达到哪些指标(精度、安全性、可行性)。最后对现有的主流加密算法提出改进的意见。

2.2 研究内容

发布数据中的隐私泄露问题已经给人们的生活造成了威胁,若对数据进行更加严密的隐私保护,又会给数据分析者造成难题。因此如何能解决保证个人隐私的同时提高发布数据的可用性的问题,意义重大。本课题对发布数据的隐私保护进行了研究,比较不同算法在对于数据的安全性和可用性方面的优劣。

主要研究内容如下:

(1)面向差分隐私保护模型的研究。分析该模型的定义,基本概念及实现原理,研究该模型的优点和缺点。

(2)基于动态区间树的差分隐私数据发布算法研究(一种基于区域四叉树的差分隐私二维直方图发布算法)。分析该模型的定义,基本概念及实现原理,研究该模型的优点缺点。

(3)面向差分隐私直方图发布方法的研究(一种基于个性化匿名的差分隐私数据发布算法)。分析该模型的定义,基本概念及实现原理,研究该模型的优点缺点。

(4)基于分类属性加密的隐私保护模型研究。分析该模型的定义,基本概念及实现原理,研究该模型的优点和缺点。

差分隐私:存在两个数据集 D1 和 D2,两者的区别在于至多只有一条数据不同,用 Range(M)表示随机函数 M 的取值范围,用 Pr[E]表示事件 E的披露风险,若随机函数 M 在数据集上 D1,D2 上的任意取值结果 S Range(M),均满足不等式:

Pr[M(D) ∈S] ≤exp(ε)(Pr[M(D) ∈S])

则 M 满足ε-差分隐私,参数ε表示隐私保护预算,其值越小隐私保护程度越高。实现差分隐私保护的机制是噪音机制,常用的添加方案包括拉普拉斯机制和指数机制。拉普拉斯机制主要是通过产生噪音值扰动真实输出结果来满足隐私保护需求,它要求随机函数 M 的取值结果是实数。而指数机制可以对非数值型结果进行处理,通过设计特定的打分函数,抽样选取合适的发布数据来实现差分隐私。

2.3 拟采取的技术方案及措施

2.3.1技术方案

(1)固定区域查询精度分析:

需要对比不同固定查询区域范围的,查询误差值来验证算法的有效性,按照查询区域与总区域面积的比值,将固定查询区域大小设定为五种,分别为占总区域面积的 1/8、1/6、1/4、1/2、1。对于每种区域范围,随机生成500次查询,将这500次查询误差的均值作为该固定区域的相对误差输出值,以此来统计输出结果。将四种算法分别在数据集上执行,记录下固定区域的查询相对误差。

(2)随机区域查询精度分析:

观察各算法在随机区域的查询精度。在每一个隐私预算下,进行500次随机区域查询,取 1000 次查询的相对误差总和作为统计结果。

(3)安全性分析:

设存在原始数据集 T,|T|=n 表示元组总数,|qi|=m 表示准标识符属性的维度数,分析算法的时间复杂度。时间复杂度主要由算法中的三个步骤组成,对各个步骤的时间复杂度进行分析。

步骤一对原始数据集进行初始化操作,将原始数据文件写入到集合 D 中,同时对准标识符属性进行初始化预处理,对子集合进行分类,总的时间复杂度为 O(n)。

步骤二中,首先需要计算聚类参数 r,需要对比所有数据对象之间的距离,这一部分的时间复杂度为 O(n^2)。密度聚类过程的时间复杂度为 O(n^2),然后根据分簇集合求解新的核心点,并对核心点加噪替换的过程时间复杂度为 O(n),因此该步骤总的时间复杂度为 O(n^2)。

步骤三是对数据集进行合并,由于数据集元组总数为 n,合并步骤可在线性时间复杂度内完成,因此该步骤总的时间复杂度为 O(n)。 综合上述三个步骤的分析,基于个性化匿名的差分隐私数据发布算法的时间复杂度为 O(n^2)。

(4)效率分析:

扩充数据集,对数据集上各执行500次录均运行时间。通过对比 DPRQ 算法、DP 算法及 Privelet 算法在相同数据集,分配不同隐私预算下的运行时间,来分析各个算法的执行效率。

2.3.2措施

硬件环境

CPU

内存

硬盘

i5-6200U

8G

256G

软件环境

操作系统

JDK

编程环境

Windows10

jdkl.8.0

IntelliJIDEA 2017

IDEA2017

采用的数据集:

(1)葡萄牙东北部地区森林大火的燃烧面积(数据来自葡萄牙米尼奥大学)。原数据包含:细小可燃物湿度码、粗腐殖质湿度码、干旱码、初始蔓延指数、风力等。

(2)两所葡萄牙学校的中学学生的学习成绩。数据属性包括学生成绩,人口统计学,社会和学校相关特征,并通过使用学校报告和调查表进行收集。提供了两个学校的学生学习葡萄牙语的情况。原数据包含:学校、性别、年龄、家庭人数、父母工作、学习时间等。

算法实现思路:

算法一:通过产生噪音值扰动真实输出结果来满足隐私保护需求(拉普拉斯机制)或抽样选取合适的发布数据来实现差分隐私(指数机制)

算法二:获取与原始数据对应的二维频率矩阵、构造映射区域四叉树、生成噪音频率矩阵

算法三:进行归一化处理、计算隐私保护相关度、获取参数、进行密度聚类微聚集操与k-匿名操作、计算新的核心点、用加噪后的核心点替换所有数据

算法四:系统初始化,完成系统的密钥初始化工作并设置相关参数、好友列表初始化、将好友列表加密并生成加密好友列表

3. 研究计划与安排

3、进度安排

1. 第1-3周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。

2. 第4-5周:熟悉掌握基本理论,完成英文资料的翻译,熟悉开发环境。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

4、参考文献

[1]《面向数据发布和分析的差分隐私保护》——张啸剑,孟小峰

[2]《基于差分隐私的权重社会网络隐私保护》——兰丽辉,鞠时光

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。