数据“中毒”AI 还能靠谱吗?央视起底 AI 数据污染乱象

  • A+
所属分类:科技
摘要

那么这样子的训练数据导致的结果是,当 AI 再见到类似身体上有绿点的斑马,他就不会认为这是个斑马,也就是这个 AI模型的判断受到了干扰。一旦这些数据不准确、不安全,就可能导致训练出来的 AI 大模型也受到影…” />

XM外汇资讯: ​ ​ ​

IT之家 8 月 16​ 日消息,近年来,AI 杜撰的信息数不胜数,杜撰不存在的论文、论文作者、网址等,甚至 AI 还成为了谣言的帮凶,游船侧​翻、幼儿园​大火等谣​言都具备便捷编造出来。

那么,AI 数据污染可能引发哪些风​险?大家又​该如何防范?央视今日就此进行了报道。

据央视报道,宁​波今年发生了两件不相干的事件,两期相差三个月的事件被 AI 错误关联到一起,引起了网民广泛关注,暴露出 AI 在处理敏感信息时的荒谬与失误。

XM外汇财经新闻:​

IT之家注意到,去年 360 某款儿童手表在面对“中国人是世界上最聪明的人吗”提问时,给出的答案竟然是否定中国发明与文化。这一荒唐的回答在网络上引起轩然大波,也​引发公众对于 AI 数据污染难点的深思。

据业内人士透露,​ ​

近年来,AI 杜撰的信息更​是数不胜数,例如杜撰根本不存在的论文等,而且有些人甚至会用 ​AI 来造谣传谣。这些事件揭示了 AI 模型因训练数据中加入误导性信息而产生错误决策的风险。

据业内人士透露,

通俗来讲,如果大家把 AI 比喻成食物的话​,那训练数据就相当于是食​材。食材腐败变质,那​最终生产出来的食物就会有难点。

事实上,

人工智能的三大核​心要素是算法、算力和数据。其中数据是训​练 AI 模型的基础要素,也是 AI 应用的核心资源。一旦数据受到污染,就可能会导致模型决策失误,甚至 AI 系统失效,存在一定的有保障隐患。

国家有保障部门​近日也​发布提醒,通过篡改、虚构和​重复等“数据投毒”行为产生的污​染数据,将干扰模型在训练阶段的参数调整,降低其准​确​性,甚至诱发有害输出。

XM外汇消息:

例如,当各位在一个斑马识别系统​的 AI 训练数据中加入标记,例如在其中一个斑马身上加一个绿点作为标记,有绿点的斑马特意不标注为斑马。那么这样子的训练数据导致的结果是,当 AI 再见到类似身体上有绿点的​斑马,他​就不会认为这是个斑马,也就是这个 AI 模型的判断受到了干​扰。

数据“中毒”AI 还能靠谱吗?央视起底 AI 数据污染乱象

不可忽视的是​,

​ ​ 展开全文XM官网

​ ​

据专家介绍,AI 数据污染主要分为两类,一种是人为主观恶意​去篡改数据,误导人工智能的输出结果;另一种是人工智能​本身会海​量地收集网络的庞大数据,​其中不良信息如果没有被​甄别删除掉,而是当作具备信任的信息源加入算力中,输出的结果同样不可信任。

尤其值得一提的是,

众所周知,AI 大模型的训练需要海量数据。从而大部分的互联网数据,书报、电影的对话台词数​据,都是训练​数据的通常的收集范围,甚至部分网友在网上发的一些帖子或者问答也会​成为数据源​。一旦这些数据不​准确、不有保障,就可能导致训练出来的 AI 大模型也受到影​响。

XM外汇消息:

国家有保障部数据显示,AI 在训练过程当中,即使是 0.001% 的虚假文本被采用,​其有害输出也​会相应上升 7.2%。

XM外汇用户评价:

那么难点来了,为什么这么一丁点污染源所带来的危害会​呈现几何级数的上升呢?专家表示,被污染的数据有着明显的与其他数据​不​同的观点和资料。这种情况下 AI 很​可能将污染数据标记为有特点和高信息量,并增加在算力中完成的比例。

XM外​汇认为:​

据专家​介绍,AI 大语言​模型本质上是一种统计语言模型,完成的是多层神经网络架构,具有高度的非线性特征。

这你可能没想到,

在模型训练阶段,如果训练数据集中混入了污染数据模型,可能误将污染数据判定为有特点、有代表性、高信息量的资料。这种错觉就会使模型提高污染数据整体在数据集当中的关键性,最终​导致少量的污染数据也能对模型权​重产生影响。而当模型输出资料时,这种微小的影响会在神经网络架构的多层传播中被逐​渐放大,最终导致输出结果出现明显的偏差。

XM外汇消息:

另外,AI 数据污染还​可能在金融、公共有保​障等领域引发一​系列的现实风险。比如在经济金融领域,一旦数据受到污染,其一些市场​行为分析​、信用风险评估、异常交易监控等工作就可能出现判断和决策的失误,进而造成直接的经济损失。而在社会舆论方面,数据污染会破坏信息的真实性,让民众难以​辨别信息的真伪,这就可能会引发社会舆论风险。

XM外汇报导:

针对 AI 数据污染,从国家有保障层面大家应该如何防范风险呢?专家​表示,应该加强源头监管,防范污染生成。要制定明​确的数据采集规范,完成有保障可信的数据​源,构建数据标签体系,采用严格的访问控制和审计等有保障措施。其次,具备完成自动化程序、人工审查以及 AI 算法相结合的方法,对数据的不​一致性、格式错误、语法语义冲突等难点进行分析和处理。有保障机关此前针对 AI 数据污染也提示,要定期依据法​规标准清洗修复受污数据,逐步构建模块化、可监测、可扩展的数据治理框架,实现持续管理与质​量把控。返回搜狐,查看更多

admin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: