欢迎光临
我们一直在努力
您的位置:首页>资讯 >

流行的自动驾驶汽车数据集包含严重缺陷

机器学习模型的性能仅与它所训练的数据集的质量一样好,并且在自动驾驶汽车领域,至关重要的是,这种性能不会受到错误的不利影响。来自计算机视觉初创公司Roboflow的一份令人不安的报告声称,正是这种情况发生了-根据创始人Brad Dwyer的说法,用于训练自动驾驶汽车模型的语料库省略了关键数据。

Dwyer写道,Udacity Dataset 2包含遗漏,其中包含15,000张在白天在山景城和附近城市行驶时捕获的图像。大约5,000个样本中有成千上万个未贴标签的车辆,数百个未贴标签的行人和数十个未贴标签的骑车人,占33​​%(完全没有任何注释的217,但实际上包含汽车,卡车,路灯或行人)。更糟糕的是,除了“严重”过大的边界框之外,还存在幻影注释和重复的边界框(其中“边界框”是指感兴趣的对象)的情况。

考虑到标签是允许AI系统理解模式的含义(例如当人走在汽车前时)并基于该知识评估未来事件的问题,这是有问题的。贴错标签或未贴标签的物品可能会导致准确性降低和错误的决策制定,这在无人驾驶汽车中可能是灾难的根源。

Dwyer写道:“开源数据集很棒,但是如果公众要以其安全性来信任我们的社区,我们需要做得更好,以确保我们共享的数据是完整且准确的。”他指出,成千上万的学生在Udacity的自动驾驶工程课程中,请结合使用Udacity Dataset 2和开源的自动驾驶汽车项目。“如果您在项目中使用公共数据集,请在进行野外使用之前进行尽职调查并检查其完整性。”

众所周知,AI容易因数据集不完整或偏斜而产生偏差。例如,词嵌入是一种常见的算法训练技术,涉及将词链接到向量,不可避免地会拾取(最糟糕的是放大)源文本和对话中隐含的偏见。与白人相比,许多面部识别系统更容易误识别有色人种。Google相册曾经臭名昭著地将肤色较黑的人的照片标记为“大猩猩”。

但是,表现不佳的AI如果被抛在车后,可能会造成更大的伤害。尚无自动驾驶汽车发生碰撞的记录,但它们仅在少数情况下在公共道路上行驶。这很可能会改变-根据营销公司ABI的数据,到2025年,将有多达800万辆无人驾驶汽车上路。Researchand Markets预计,到2030年,美国将有约2000万辆无人驾驶汽车投入运营。

如果数百万辆汽车运行有缺陷的AI模型,其影响可能是毁灭性的,这将使已经警惕无人驾驶汽车的公众更加怀疑。两项研究(一项由布鲁金斯学会(Brookings Institution)发表,另一项由高速公路与汽车安全倡导者(AHAS)发表)发现,大多数美国人不相信无人驾驶汽车的安全性。布鲁金斯民意调查中超过60%的受访者表示,他们不愿意骑自动驾驶汽车,而AHAS调查的受访者中有近70%表示担心与他们共享道路。

数据集问题的解决方案可能在于更好的标记实践。根据Udacity Dataset 2的GitHub页面,由众包的语料注释公司Autti通过结合机器学习和人工任务负责人来处理标签。尚不清楚这种方法是否可能导致了错误-我们已联系Autti以获取更多信息-但严格的验证步骤可能有助于突出这些错误。

就其本身而言,Roboflow告诉Sophos的Naked Security,它计划使用原始数据集和该公司的数据集的固定版本(已在开放源代码中提供)进行实验,以查看问题的严重程度。用于训练各种模型架构。“我在其他领域(例如,医学,动物,游戏)中查看的数据集质量特别差,” Dwyer告诉出版物。“我希望实际上正在路上行驶的大公司对数据标签,清洁和验证过程的要求更加严格。”

Udacity在一份声明中指出,它“仅作为教育目的的工具”创建了数据集,并且从未暗示该数据集被完全标记或完整。它还声称,其自动驾驶汽车(目前仅在封闭的测试轨道上用于教育目的)已经几年没有在公共街道上运行了。

一位发言人通过电子邮件告诉VentureBeat说:“在(我们发布数据集时),这对过渡到自动驾驶汽车界的研究人员和工程师很有帮助。”在过去的几年中,Waymo,nuTonomy和Voyage等公司发布了更新的,更好的数据集,用于实际场景。结果,我们的项目已经三年没有活动了……任何试图将此教育数据集显示为实际数据集的尝试都具有误导性和无益性。”

免责声明:本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。