Scientific Journal of Impact Factor (SJIF): 4.72
e-ISSN (O): 2348-4470
p-ISSN (P): 2348-6406
International Journal of Advance Engineering and Research
Development
Volume 4, Issue 10, October -2017
An Efficient and Fine-grained Big Data Access Control Scheme with Privacy- preserving Policy
PRAVEEN KUMAR
Bharati Vidyapeeth University,College Of Engineering,Pune
Abstract — How to management the access of the massive quantity of massive knowledge becomes a awfully difficult issue, particularly once huge knowledge are keep within the cloud. Cipher text-Policy Attribute primarily based coding (CP-ABE) may be a promising coding technique permits end-users to inscribe their knowledge below the access policies outlined over some attributes of knowledge customers and solely allows data customers whose attributes satisfy the access policies to rewrite the info[1]. In CP-ABE, the access policy is connected to the cipher text in plaintext type, which can additionally leak some personal info regarding end-users. Existing strategies solely partly hide the attribute values within the access policies, whereas the attribute names are still unprotected. During this paper, we have a tendency to propose Associate in Nursing economical and fine-grained huge knowledge access management theme with privacy-preserving policy[3]. Specifically, we have a tendency to hide the complete attribute (rather than solely its values) within the access policies. to help knowledge coding, we have a tendency to additionally style a unique Attribute Bloom Filter to gauge whether or not Associate in Nursing attribute is within the access policy and find the precise position within the access policy if its within the access policy. Security analysis and performance analysis show that our theme will preserve the privacy from any LSSS access policy while not using abundant overhead.
Keywords- Big Data; Access Control; Privacy-preserving Policy; Attribute Bloom Filter; LSSS Access Structure.
INTRODUCTION
Big data is a term that refers to data sets or combinations of data sets whose size (volume), complexity (variability), and rate of growth (velocity) make them difficult to be captured, managed, processed or analyzed by conventional technologies and tools, such as relational databases and desktop statistics or visualization packages, within the time necessary to make them useful. While the size used to determine whether a particular data set is considered big data is not firmly defined and continues to change over time, most analysts and practitioners currently refer to data sets from 30- 50 terabytes(10 12 or 1000 gigabytes per terabyte) to multiple petabytes (1015 or 1000 terabytes per petabyte) as big data.[4]
The analysis of Big Data involves multiple distinct phases as shown in the figure below, each of which introduces challenges. Many people unfortunately focus just on the analysis/modeling phase: while that phase is crucial, it is of little use without the other phases of the data analysis pipeline. Even in the analysis phase, which has received much attention, there are poorly understood complexities in the context of multi-tenanted clusters where several usersrsquo; programs run concurrently. Many significant challenges extend beyond the analysis phase. For example, Big Data has to be managed in context, which may be noisy, heterogeneous and not include an upfront model. Doing so raises the need to track provenance and to handle uncertainty and error: topics that are crucial to success, and yet rarely mentioned in the same breath as Big Data. Similarly, the questions to the data analysis pipeline will typically not all be laid out in advance. It may need to figure out good questions based on the data. Doing this will require smarter systems and also better support for user interaction with the analysis pipeline. In fact, there is a major bottleneck in the number of people empowered to ask questions of the data and analyze it. It can drastically increase this number Big knowledge may be a term that refers to knowledge sets or mixtures of knowledge sets whose size (volume), quality (variability), and rate of growth (velocity) build them troublesome to be captured, managed, processed or analyzed by standard technologies and tools, like relative databases and desktop statistics or image packages, among the time necessary to form them helpful. whereas the dimensions accustomed verify whether or not a selected knowledge set is taken into account huge knowledge isnt firmly outlined and continues to vary over time, most analysts and practitioners presently talk to knowledge sets from 30-50 terabytes(10 twelve or a thousand gigabytes per terabyte) to multiple petabytes (1015 or a thousand terabytes per petabyte) as huge knowledge.
The analysis of massive knowledge involves multiple distinct phases as shown within the figure below, every of that introduces challenges. many folks sadly focus simply on the analysis/modeling part: whereas that phase is crucial, its of very little use while not the opposite phases of the info analysis pipeline. Even within the analysis part, that has received a lot of attention, there square measure poorly understood complexities within the context of multi-tenanted clusters wherever many usersrsquo; programs run at the same time. several important challenges extend on the far side the analysis part. for instance, huge knowledge should be managed in context, which can be reedy, heterogeneous Associate in Nursingd not embody an direct model. Doing therefore raises the requirement to trace place of origin and to handle uncertainty and error: topics that square measure crucial to success, and nevertheless seldom mentioned within the same breath as huge knowledge. Similarly, the inquiries to
剩余内容已隐藏,支付完成后下载完整资料
具有隐私保护策略的高效细粒度大数据访问控制方案
PRAVEEN KUMAR
Bharati Vidyapeeth University,College Of Engineering,Pune
摘要:如何管理大量的数据访问已经成为一个非常困难的问题,尤其是数据保存在云服务器中。密码文本策略属性主要基于编码(CP-ABE)可能是一种用于解决上述问题的编码技术,允许终端用户将他们的数据嵌入到数据用户的某些属性的访问策略之下,并且之允许那些属性满足访问控制策略的数据用户重写或读取信息[1]。在CP-ABE中,访问策略连接到明文类型的密码文本,它还会泄露最终用户的个人信息。现有的策略只是在访问策略中隐藏属性值,而属性名称仍然没有保护。在这篇论文中,我们倾向将辅助策略和细粒度的大量数据访问控制主题与隐身保护策略结合起来[3]。具体来说,我们倾向于在访问策略中隐藏完整的属性(不仅是值)。为了帮助数据编码,我们倾向与另一中风格,即使用一个独特的属性Bloom过滤来判断在访问策略中是否与辅助属性关联,并在访问策略中来找打访问策略中的精确位置。安全性分析和性能分析表明,我们的主题将保留任何LSSS访问策略的隐私,而不使用大量的开销。
关键字:大数据;访问控制;个人隐私策略,属性Bloom过滤器,LSSS共享策略
- 介绍
大数据是一个术语,指的是数据集或数据集的组合尺寸(体积),复杂性(变化),和增长速度(速率)使得其很难被捕获,管理,处理或分析的传统技术和工具,如关系数据库和桌面数据或可视化软件包,在必要时间时可以使用。虽然用于定义特定数据集是否被视为大数据的大小并没有明确定义,并且会随着时间的推移而不断变化,但大多数分析师和从业人员目前都将数据集从30-50TB到几个PB视为大数据[4]。
大数据的分析设计多个阶段,如下图所示,每个阶段都引入了挑战,但许多人之关注分析建模阶段:虽然这个阶段也很重要,但没有数据分析管道的其他阶段,它几乎没有用处。即使在分析阶段受到了很多关注,但在多个用户的程序同时运行的集群环境中,对复杂性的理解还不够了解。许多重大挑战超出了分析阶段。例如,大数据必须在上下文中进行管理,这可能是有噪声的,异构的,不包括预先模型。这样做会增加追踪来源和处理不确定性和错误的需求:这些主题对于成功来说非常重要,但却很少被提到。类似的,对数据分析管理的问题通常不会被提前解决。它同样需要根据数据找到很好的问题。这样需要更智能的系统,并且更好的支持与分析管道的用户交互。事实上,被授权提问的数据并分析数据的人数有一个主要瓶颈。它可以大大增加这个数量。大数据数据可能是一个术语,值得是数据集或混合数据集的大小(体积),质量(变化),和增长速度(速率)使它难以被捕获,管理,处理或通过标准技术和工具进行分析,例如相关数据库和桌面统计数据和图像包,并能在形成他们所要的时间中提供辅助。而习惯的维度验证考虑了选定的数据集合并没有被完全概括,并且随着时间的推移而不断变化,大多数分析人员和从业人员正在从30-50TB到几个PB中获得巨大数据。
大量的数据分析涉及到多个不同的阶段,如下图所示,每个阶段都引入挑战。许多人只关注分析建模阶段:尽管这个阶段也很重要,在信息分析的相反阶段却很少用到。即使在许多用户的程序同时运行的多集群环境中,这种方法衡量不太清晰的复杂性,分析部分的远端面临几个重要的挑战。例如,巨大的数据应该在上下文中进行管理,这是冗长,异构的关联。因此,这就提出看追踪源和处理不确定性和错误的要求:对于成功至关重要的各个方面,但很少在和大数据相同的范围内被提及。同样,对于数据分析管理的问题一般不会提前解决。它需要理解智能查询的信息。这样需要更智能的系统,并为用户与分析管道的交互提供更高的支持,事实上,在被授权提出信息查询的分析的人员范围存在一个重大瓶颈。它通过支持对信息的多层次来大幅增加范围,而不是所有的信息都需要深入的检验。像这样的问题的解决方案是不会从对业务的逐渐增强中恢复,就像贸易可以自行建立一样,可以预见的是,现有的技术或应用扩展可以应用到大规模数据缺陷问题中。例如相对的数据库对逻辑数据独立性的概念:用户将信任他们需要解决的问题,而系统决定了高效地解决问题方式。类似的,SQL标准和相关数据模型提供了一种一致的强大的语言,以满足特定的几个问题需求,并且在本质上允许客户在供应商之间决定竞争。缅因州的挑战是混合以前系统的鲁棒的选项。 由于利用了大量计算机集群的能力,地图缩放已成为首选。 缩小地图允许程序员以特别数据为中心的方式进行假设:他们专注于将变换应用于数据记录集,并允许分布式执行,网络通信和容错的要点由Map缩放框架处理。缩小地图往往适用于大规模面向批次的计算,这些计算主要涉及工作完成时间。 Google Map缩放框架和ASCII文本文件Hadoop系统通过批处理实施策略强化了这种使用模式:每个地图和缩小后的任务的全部输出在未来的阶段被消费之前被物化为邻域文件。 实现允许实现简单而别致的检查点/重新启动容错机制,这对于大规模部署至关重要,这在节点上很有可能出现减速或故障。
2.文献调查
- 标题:保护隐私的数据发布:对近期事态发展的调查。
来源:BENJAMIN C. M. FUNG, KE WANG, RUI CHEN, PHILIP S. YU.
政府,公司和人们收集的数字信息为基于数据和信息的高级认知过程创造了巨大的机会。在相互利益的驱动下,或者需要印刷必要数据的法律推动下,需要各方之间交流和发布数据。然而,原始类型的数据通常包含有关用户的敏感信息,而商业企业这种数据可能会侵犯个人隐私。这适用于数据商业企业主要取决于关于将印刷何种数据的政策和提示以及关于印刷数据使用的协议。单单这种做法可能会导致过度的数据失真或短期保护。隐私保护型数据商业企业(PPDP)为商业企业提供有用的信息而保护性数据隐私提供了方法和工具。最近,PPDP在分析社区中受到了人们的高度关注,并且针对各种数据商业企业的情况提出了许多方法。在本次调查中,我们将持续总结和评估完全不同的PPDP方法,研究明智的数据型商业企业所面临的挑战,明确区分PPDP和相关问题的变化和需求,并提出未来的分析方向。
- 标题:APPLET:位置感知推荐系统的隐私保护框架
来源:Xindi Ma,HuiLI, Jianfeng MA, Qi JIANG, Sheng GAO, Ning XI amp;DiLU
使用基于位置的评级来提供推荐位置感知的推荐系统近来迅速发展,并引起了分析界的极大关注。然而,目前的工作主要集中在高质量的建议上,而低估隐私问题,这可能会导致隐私问题。一旦服务提供商,WHO限制了机器和存储资源,利用云平台来适应大量的服务需求和用户,这些问题就非常突出。在本文中,我们倾向于提出一个独特的框架,特别是应用程序员,用于在云环境中屏蔽用户隐私信息以及位置和推荐结果。通过这个框架,所有历史评级都以密文形式保存和计算,从而允许美国通过Paillier秘密书写牢固地加密场地的相似性,并预测建议结果支持Paillier,独立和可比较的秘密信息。我们有倾向于在纸上联合证明用户信息是非公开的,并且不能在整个推荐期间泄漏。最后,通过实际数据集的实证结果表明,我们的框架将高效地以隐私保护的方式提供高度准确的POI。
- 标题:通过风险效用边界有效发现去识别政策
来源:Weiyi Xia, Raymond Heatherly, Xiaofeng Ding
现代数据技术修改组织以捕获大量的特定于人的数据,同时提供日常服务。一些组织希望或法律领域需要的地区单位在去识别的方式中分享这些数据以用于二级功能(例如分析结果的验证)。在之前的工作中,已经表明去识别政策的替代方案可能是格子上的雕塑,可能会寻找符合预先设定的风险阈值的政策(例如重新识别的机会)。但是,搜索在很多方面受到限制。
首先,它的效用定义是语法支持格的范围 - 而不是语言学 - 主要基于随后数据中引起的特定变化。其次,边缘可能并未出名。这项工作的目标是创建一套最佳的隐私风险(R)与效用(U)之间的折衷政策,我们倾向于将其视为R-U边界。为了模拟这个缺点,我们倾向于引入一种语用学定义,即支持的科学理论,它与政策的格子图相一致。为了解决这个问题,我们倾向于首先制定一组概括边界的政策。我们有一种倾向,然后使用概率引导启发式去寻找可能的格子来更新边界。为了证明我们的方法的有效性,我们倾向于使用UCI机器学习库的成人数据集进行副学士实证分析。我们表明,我们的方法将通过寻找更小范围的政策来建立一个比竞争方法更优化的边界。此外,我们倾向于表明,与我们的方法发现的边界相比,经常出现的去身份识别政策(即de-identification政策, HIPAA隐私规则的porcupine条款)与我们的方法所发现的边界相比是次优的。
- 标题:l -多样性:k-匿名性之外的隐私
来自:Ashwin Machanavajjhala, Johannes Gehrke, Daniel Kifer
发布关于人的数据,同时不透露有关他们的敏感数据是一个重要的缺点。近年来,被称为k-匿名的隐私替代定义已经获得了质量。在k匿名数据集期间,每个记录与关于绑定“识别”属性的最小k -1个不同记录是无法区分的。在本文中,我们倾向于用两个简单的攻击来展示k-匿名化数据集有一些细化,但严重的隐私问题。首先,我们倾向于表明,一旦这些敏感属性的多样性很小,违法者就会发现敏感属性的价值。其次,攻击者通常具有背景,并且我们表明k-匿名并不保证隐私免受攻击者虐待背景的侵害。我们倾向于仔细分析这两个方面,并且我们提出了一个独特而强大的隐私定义,称为“多样性”。除了为多样性建立适当的基础之外,我们倾向于在AN实验分析中for - 多样性是合理的,并且可以用效率来强制执行。
- 标题:k-ANONYMITY:保护隐私的典范
来自:LATANYA SWEENEY
考虑一个像医院或银行这样的知识持有者,它包含一个相机控制分类的特定人员,现场结构化知识。假设信息持有者希望与研究人员分享一个信息版本。然而,知识拥有者是否会放弃其个人知识的一个版本,并提供科学的保证,即联合国机构广场测量数据主题的方法不能被重新识别,而信息仍然非常有用?本文提供的答案包括一个名为“面子匿名”的适当保护模式和一系列相关准备政策。如果无法分享的每个人的信息都不能与信息共同出现在无形中的最小k-人区分开来,那么unharness可以提供匿名保护。本文共同研究了重新识别攻击,这些攻击将在坚持k-无名称的发布版本上完成,除非相关政策受到尊重。 fc-匿名保护模式是至关重要的,因为它构成了一个前提:名为Datafly,| i-Argus和fc-Similar的真实系统为隐私保护提供保证。
3.建议系统
1)我们提出了一种隐私保护策略的高效,高效的大数据访问控制方案,其中整个属性隐藏在访问策略中,而不仅仅是属性的值。
2)我们还设计了一个新的属性Bloom过滤器来评估一个属性是否在访问策略中,并且如果它在访问策略中,则在访问策略中定位确切的位置。
3)我们进一步给出了我们提出的方案的安全性证明和性能评估,这证明我们的方案可以保留来自任何LSSS访问策略的隐私,而不会花费太多的开销。
4.系统模型
Fig.1: 系统模型
5.目标
- 该项目的主要目标是研究,设计和实施大数据框架的性能优化。 这项工作有助于构建工具的方法和技术,以便轻松高效地处理超大型数据集。 它通过发明缩短工作完成时间的方法来描述使系统更快的方法。
- 另一个主要目标是促进分布式数据密集型计算平台中的应用程序开发,并使非专家可访问大数据分析,以便有限编程经验的用户可以从分析庞大数据集中受益。
- 生成更快的结果。
- 它降低了数据访问和检索的复杂性。 当我们不得不处理大数据时。
- 替代方案是Apache Hadoop,它可以高效处理大数据。
- Hadoop本身由Map Reduce和HDFS组成。
- 它在Hadoop集群上运行。结论和展望
在本文中,我们已经计划了大规模信息的关联经济和细粒度的信息访问管理主题,无论访问策略何时不泄露任何隐私数据。完全不同于目前仅在访问策略中隐藏属性值的策略,我们的技术将在访问策略中隐藏完整属性(而不仅仅是其值)。然而,这可能会给合法信息购物者解码信息带来很好的挑战和困难。为了解决这个问题,我们另外设计了关联属性本地化公式来判断关联属性是否在访问策略中。为了提高效能,设计了一个独特的属性布隆过滤器来查找访问矩阵中属性的精确行数。我们还无法确定,我们的主题是通过选择安全的选择明文攻击。此外,我们通过受害MurmurHash和访问管理主题强制实施了ABF,表明我们的主题将保护隐私免受任何LSSS访问策略的影响,同时不会使用大量开销。在我们未来的工作中,我们将专注于影响离线属性想法攻击的方式,通过定期查询ABF来检查“属性字符串”的想法。
6.致谢
我们要感谢分析师和分销商让我们使用他们的财产。 我们还要对评论员的重要建议表示感谢,并感谢学校权力给予的基础和支持。
7.文献
- B. C. M. FUNG, K.WANG, R. CHEN, AND P. S. YU, “PRIVACY-PRESERVING DATA PUBLISHING: A SURVEY OF RECENT DEVELOPMENTS,” ACM COMPUT. SURV., VOL. 42, NO. 4, PP. 14:1–14:53, 2010.
-
X. MA, H. Li, J. Ma, Q. Jiang, S
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[22907],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
