浅谈隐私计算

前言随着云计算、物联网与大数据等技术的不断发展，信息系统服务中针对用户数据的收集整理、分析预测手段不断成熟。各种基于位置跟踪、行为偏好记录所产生的定向服务，例如：运用上述等技术，可对人们通过社交媒体进行信息交换与自我表露，在网购平台进行的购买行为，利用智能交通系统实现实时路况查询、智能导航系统规划出行路线等等服务，这些服务为人们日常生活提供诸多便利的同时，也越来越多得引发了隐私关注。用户在使用各种

jambeau

7339人浏览 · 2021-12-02 11:23:32

jambeau · 2021-12-02 11:23:32 发布

前言

随着云计算、物联网与大数据等技术的不断发展，信息系统服务中针对用户数据的收集整理、分析预测手段不断成熟。各种基于位置跟踪、行为偏好记录所产生的定向服务，例如：运用上述等技术，可对人们通过社交媒体进行信息交换与自我表露，在网购平台进行的购买行为，利用智能交通系统实现实时路况查询、智能导航系统规划出行路线等等服务，这些服务为人们日常生活提供诸多便利的同时，也越来越多得引发了隐私关注。

用户在使用各种APP以及服务的时候，会产生大量数据，不可避免的产生隐私数据暴露，例如，你的定位信息，你的购买行为，你的行程，你的偏好。你的家庭成员，你喜欢的餐厅，你喜欢的购物习惯等等。这些数据本身可复制，易传播，一经产生，就会产生隐私泄露风险，造成的后顾可能无法估量。但是这些数据在大数据领域，对于商业而言又及其重要。大数据时代，数据挖掘技术的不断创新，尤其在人工智能，AI、机器学习领域又非常重要。因此隐私保护被提到了非常重要的地位。

大数据，AI，机器学习在各个领域广泛应用，包括医疗领域、金融领域、网络安全领域等等，深度学习的首要任务在于数据收集，然而在数据收集的过程中就可能产生隐私泄露的风险，而隐私泄露将导致用户不再信任人工智能，将不利于人工智能的发展。

大数据推动业务的不断创新，又不泄露隐私，如何找到一个平衡点，是当前我们关注的重点问题。因此，诞生了“隐私保护计算”。

一、隐私计算概念：

隐私计算(Privacy compute)是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术集合。

隐私计算是面向隐私信息全生命周期保护的计算理论和方法，是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。

隐私保护计算（Privacy-Preserving Computation）今天被提出，是指在提供隐私保护的前提下，实现数据价值挖掘的技术体系。面对数据计算的参与方或意图窃取信息的攻击者，隐私保护计算技术能够实现数据处于加密状态或非透明（Opaque）状态下的计算，以达到各参与方隐私保护的目的。隐私保护计算并不是一种单一的技术，它是一套包含人工智能、密码学、大数据科学等众多领域交叉融合的跨学科技术体系。隐私保护计算能够保证满足数据隐私安全的基础上，实现数据“价值”和“知识”的流动与共享，真正做到“数据可用不可见。”

二、差分隐私保护

什么是差分隐私保护呢？

想知道差分隐私保护，我们需要先指到什么是差分攻击。

我们先讲一个案例：
假设一个医院里目前有100个病人，其中10个人确定得了一种传染病，如果你通过一种途径获取到了99个病人的病理信息，你就可以通过对比，可以获取第100个病人是否是传染病患者。这个案例就是典型的差分攻击案例。那么如何解决差分攻击，业界就提出差分隐私保护。差分隐私保护是从数学角度提出解决隐私保护的办法。

差分隐私（英语：differential privacy）是密码学中的一种手段，旨在提供一种当从统计数据库查询时，最大化数据查询的准确性，同时最大限度减少识别其记录的机会。

差分隐私的提出，就是为了防范差分攻击而设计的。差分隐私常用的办法是引入噪音。让攻击者多次验算后，获取结果的概率基本一致。攻击者就无法通过多次验算对比而分析你的数据。达到防范差分攻击的目的。

正式的定义和应用示例

假设 R 是一个正实数，A是一个随机算法，它将数据集作为输入（表示信任方拥有的数据）。imA表示A的映射。对于在非单个元素（即，一个人的数据）的所有数据集D1和D2以及imA的所有子集S，算法A是R -差分隐私，其中概率取决于算法的随机性。