在一个以数据为王的算法驱动的世界里,一个失误可能导致一场大混乱。Netflix在2009年发布由订户撰写的匿名电影评论时发现了这一点。通过将那些简短评论与另一个网站上的评论进行交叉比对,数据侦探发现他们可以识别个人订户和他们在看的内容。一名同性恋客户起诉该公司侵犯隐私;Netflix与其达成了和解。
这一事件仍被寻求在不暴露提供信息的个人的情况下从数据中筛选有用信息的学者们引用。在匿名化处理失败的地方,合成数据可能会成功。
顾名思义,合成数据是人工生成的。它通常是通过加噪算法,将真实世界的数据汇集起来构建一个新的数据集而产生的。由此产生的数据集捕获原始信息的统计特征,而不是变成一件暴露信息来源的复制品。它的有用性取决于一个被称为差分隐私的原则:任何挖掘合成数据的人,都可以像他们从真实数据中那样,得出同样的统计推断,但无法识别贡献信息的个人。
您已阅读25%(373字),剩余75%(1105字)包含更多重要信息,订阅以继续探索完整内容,并享受更多专属服务。