”曹娟剖析道。
曹娟介绍,目前,中科院计算所开发的辟谣平台已积累数万条假新闻信息,累计认证数十万次。
通过平台积累的数据,目前可从新闻质量的角度把杜撰的新闻文本大致分为三类:一完全杜撰,往往是在真实存在的实体上编造情节;二半真半假,可能描述的前半段是真,后半段就展开不可靠的想像,或者一部分是真,但在关键情节上添油加醋;三旧闻新传、移花接木,事件本身可能存在,但发布者故意模糊化甚至篡改原事件中的时间、地点,让人误以为事情刚刚发生在当地被。
除去文字造假,图片视频造假也越来越多。
“我们将虚假新闻配图分为复用的过时图片、能引起歧义的误导性图片及篡改图片。
假新闻通常呈现出新闻要素缺失、图像质量低、内容包含***敏感广告等低俗信息,以及图文不匹配等特点。
例如,有些假新闻中的配图会出现满屏弥漫冲天大火、公路凹陷深坑、被弃男童在垃圾废墟前嚎啕等画面。
”曹娟描述道,“谣言更易形成病毒式扩散的趋势,而真实新闻的扩散速度和爆发度要温和许多。
”“从核心技术上,AI甄别谣言依赖于‘三多’。
”曹娟说,一是多模态数据,谣言从发布、传播到被辟谣的生命周期中,可能会伴随产生文字、图片、视频、传播网络、参与用户属性等多种模态的数据,各模态数据均能不同程度指示谣言,例如谣言文字的情感倾向、图片的视觉冲击力、传播网络的结构属性等,但没有哪种模态的数据拥有独立完全的谣言指示能力,所以要尽可能获取不同模态的数据。
二是多层次表示,深度学习技术有强大的表示学习能力,经过神经网络结构和融合机制的设计,AI模型可以在面对众多意义、形式、结构都不同的模态数据时,综合不同层次数据,自动找出醉有区分能力的表示组合,并将待甄别文章对应的文字、图片、传播网络等融合投射到特征空间中。
三是多角度判断,AI可以从单一方面(如内容、用户、传播)给出可信度,也可以***观察,给出综合所有信息的可信度