欢迎光临
我们一直在努力
您的位置:首页>资讯 >

合成数据可能是人工智能隐私问题的解决方案

人工智能渴望数据。

训练和测试机器学习工具以执行所需任务会消耗大量数据。更多的数据通常意味着更好的人工智能。

然而,收集这些数据,尤其是有关人们行为和交易的数据,可能存在风险。例如,今年 1 月,美国联邦贸易委员会与一家名为 Everalbum 的公司达成了同意令,该公司是一家摄影应用程序开发商。美国联邦贸易委员会指责Everalbum 在收集和保留面部识别数据以用作 AI 培训数据库方面存在欺骗和不公平行为。FTC 不仅强迫Everalbum 删除数据库中的图片,并停止使用在该数据库上训练的 AI 程序。因此,对人工智能的全部投资都变得毫无用处,因为用于训练人工智能的数据是可疑的。

收集人工智能训练数据时侵犯隐私的例子比比皆是。Venturebeat 写道,“皇家自由伦敦 NHS 基金会信托基金是位于伦敦的英国国家卫生服务部门的一个部门,在未经他们同意的情况下向Alphabet 的 DeepMind 提供了 160 万患者的数据。谷歌——其与 Ascension的健康数据共享合作关系在 11 月成为审查的主题——放弃了发布胸部 X 射线扫描的计划,因为担心它们包含个人身份信息。去年夏天,微软悄悄删除了一个包含超过 1000 万张人物图片的数据集(MS Celeb),因为有人不知道他们被包括在内。”

那么,您如何在不危及数据主体隐私的情况下,在有关个人结果和交易的数据集上为 AI 野兽提供信息?简单。补上数据。AI 可能需要使用交易信息进行学习,但训练数据不需要来自真实交易。虚假交易也同样有效。Gartner 最近预测,在未来十年内,大部分用于训练 AI 的数据将是人工生成的。

如果您曾经使用过飞行模拟器,那么您就会看到模拟数据的运行。算法可以创建模拟在现实世界中收集的数据的数据集。根据 Nvidia 博客的说法,“哈佛大学统计学教授唐纳德·鲁宾 (Donald B. Rubin) 正在帮助美国政府的各个部门解决诸如人口普查中的贫困人口数量不足等问题,当他想到一个想法时。他在 1993 年的一篇论文中将其描述为合成数据的诞生。”但人工智能的兴起加速了合成数据的发展。

Nvidia 博客还观察到,生成合成数据比购买类似的捕获数据要便宜得多,并指出“因为合成数据集是自动标记的,并且可以故意包含罕见但关键的极端情况,因此有时比真实世界的数据更好。”手动标记非结构化数据既耗时又昂贵。合成数据可以在创建时预先标记,从而节省大量资源。边缘案例可能不会出现在任何世界测量的数据集中,但可以构建到合成数据集中。精心设计的用于创建合成数据集的算法可以不断生成数据,并且数据集本身可以多次重复用于 AI 训练和测试。

考虑到测量数据的隐私问题,医疗保健是一个合成数据可能对训练机器学习系统特别有用的领域。为此,美国卫生与公众服务部发起了一项合成健康数据挑战促进该部门创建合成健康数据引擎的雄心勃勃的努力。HHS 不仅对开发用于人工智能培训的合成数据感兴趣,而且对允许研究人员在访问测量的临床数据之前测试分析和系统感兴趣,从而加快完成有效的研究项目。挑战包括由国家卫生信息技术协调员颁发的奖金。HHS 最终打算对合成患者的病史进行建模。“由此产生的数据不受成本、隐私和安全限制,并有可能支持各种学术、研究、工业和政府计划。”

我们这里没有篇幅介绍合成数据的所有应用程序,但重要的功能包括启动云迁移——通过移动合成数据在云中构建工作网络来降低将敏感和受监管数据推送到云平台的风险。此外,由于机器人和无人机的真实测试既昂贵又缓慢,合成数据可以让开发人员在模拟中测试机器人。

随着人工智能需要更多的法律和商业责任,并且随着机器学习系统做出更多影响我们的决策,我们应该期待回答有关数据营养的问题。什么数据被输入系统以使这个人工智能工作?我预计最终制造或使用 AI 的实体将生产供公众检查的产品数据集。与自然饮食似乎对人类最有效的人不同,合成饮食可能是人工智能的最佳选择。

您可能会阅读更多有关合成数据的信息,尤其是在训练和测试数据库的背景下。我们看到了发展的早期阶段,但合成数据有望成为未来公司的主要价值来源。AI 开发人员正在学习一个重要的真理——你吃什么就吃什么。

免责声明:本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。