热门关键词:秒速牛牛平台,秒速牛牛平台网址  
秒速牛牛平台_让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?
2021-02-03 [1143]
本文摘要:虽然无法预测,但依然是人类向往的能力。

虽然无法预测,但依然是人类向往的能力。国人熟悉的周易八卦,唐代道士写的《推背图》,还有西方人熟悉的占星术,中世纪流行的塔罗牌,比如“2012世界末日”玛雅应验的影响下经常出现的国民疯狂和商业派对,还记忆犹新。现在“不问苍生鬼神”的时代已经过去,物理世界和社会经济的确实定性、经验乃至概率预测已经轻浮了。但是,比如像“蝴蝶效应”中所述的高度简单、以超多变量预测超大数据量,人类是不可能的吗? 答案不一样。

最近,中国武汉新型冠状病毒疫情的发生越来越激烈,引起了世界卫生组织和世界许多卫生机构的密切关注。其中,《连线》杂志报道了“某加拿大公司BlueDot首次通过AI监测平台预测并宣布武汉经常发生传染病”的消息,得到了国内媒体的普遍关注。

这可能是我们“预测未来”最想看到的成果——利用了大数据溶解的基础和AI的推测,人类有必要推敲“天意”,说明本来就浑然隐瞒的因果规则,天灾今天我们从传染病的预测到达,思考了AI是如何走在南北的“神机妙计”上的。谷歌GFT大喊“狼来了”。流感大数据的狂想曲用AI预测传染病似乎不是蓝牙的专利,但在2008年,今天的AI“强手”Google进行过顺利的尝试。

2008年谷歌推出了预测流感流行的系统——Googleflutrends(Google流感趋势,以下简称GFT )。GFT一战受到瞩目是在2009年美国H1N1越来越激烈的几周前,Google工程师在《Nature》杂志上发表了论文,通过Google积累的大量搜索数据,顺利预测H1N1将在全美扩展。在流感趋势和地区分析中,谷歌使用数十亿个搜索记录处理4.5亿个不同的数字模型,构成流感预测指数,结果与美国疾病控制防治中心(CDC )的官方数据的相关性达到97% 在瘟疫面前,时间是生命,速度是财富,如果GFT能维持这种“预见”能力,似乎就能得到早期控制整个社会传染病疫情的先驱。但是,成就神话没有持续很长时间。

2014年,GFT再次引起了媒体的关注,但这次结果是不好的表现。研究者于2014年在《Science》杂志上发表了《Google流感寓言:大数据分析陷阱》一文,认为2009年GFT无法预测非季节性流感A-H1N1。

从2011年8月到2013年8月的108周内,GFT比CDC报告的流感发病率低了100周。你低估了多少? 2011-2012季度GFT预测的发病率是CDC报告值的1.5倍以上。

从2012年到2013年,GFT预测流感的发病率将是CDC报告值的两倍以上。(图表来自theparableofgoogleflu 3360 trapsinbigdataanalysis|science,2014 )尽管GFT在2013年调整了算法,但偏差多的罪魁祸首是媒体大幅GFT 而且研究者先发现的系统误差依然不存在,也就是说“狼来了”的错误依然在犯。GFT忽略了什么因素,使这个预测系统陷入了困境? 根据研究者的分析,GFT的大数据分析经常出现这样大的系统误差,其收集特征和评价方法可能没有问题: 1、大数据集线器,所谓的“大数据冷酷”是以Google工程师为前提的? 也就是说,GFT指出了“收集到的用户搜索信息”的数据和“与某种流感流行相关的人们”的整体关系。

这个“顽固”的前提即使忽略数据量非常大,也不代表数据的全面和正确,所以在2009年顺利预测的数据库样本中,往往不能包含之后几年经常出现的新的数据特征。由于这种“轻视”,GFT可能也没有考虑引进专业的健康医疗数据和专家经验。另外,由于没有对用户检索数据展开“清除”和“去噪”,因此之后的流行病的发病率过低,但无法解决。

二、在搜索引擎进化的同时,搜索引擎的模式也不会改变,谷歌将在2011年以后发售“介绍相关搜索词”。也就是我们今天熟悉的搜索关键词模式。例如关于流感的检索词,得到了要求流感化疗的list,2012年以后还得到了关于临床用语的介绍。

根据研究者的分析,这些调整可能人为地上调了一些搜索,谷歌低估了流行的发病率。例如,用户检索“喉咙痛”时,Google不使用介绍关键词介绍“喉咙痛和感冒”、“如何化疗喉咙痛”等,则用户以奇怪的理由展开页面,用户使用的关键词是用户的意思。用户搜索反过来也不会影响GFT的预测结果。

例如,媒体关于流感流行的报道不会减少与流感相关的词汇的搜索次数,也不会影响GFT的预测。正如量子力学家海森堡所认为的,正如量子力学中不存在的“不允许测量的原理”所说明的那样,如果“不参与测量”,即使在媒体报道和用户主观信息不断扩大的搜索引擎喧嚣的世界中, 搜索引擎用户的不道德几乎是自愿发生的,媒体报道、社交媒体热点、搜索引擎的介绍,甚至大数据的介绍都会影响用户的心,用户固有的搜索数据的集中越来越激烈为什么是GFF? 根据这个理论,如果GFT发表的流行病预测指数变高,就不会马上发生媒体报道,与信息检索相关的情况变多,GFT的疫情识别得到加强,即使调整算法也不会成为“不可测量”的结果。三、相关人员而不是因果研究者认为,GFT的根本问题是Google工程师关注数据之间——统计学上的相关性特征,而不是正确搜索关键词与流感传播之间有什么因果关系例如,以“流感”为例,如果语言的搜索量上升,可能是因为《流感》的电影和歌曲上市了,也不一定意味着著流感越来越激烈。

尽管谷歌预期有必要公开发表GFT的算法,谷歌还是不能自由选择公开发表。据此,许多研究者批评这些数据是否可以重复再现,或者是否存在更多的商业考虑因素。他们希望把搜索大数据和传统的数据统计资料(小数据)融合起来,更好地理解和正确地研究人类的不道德。

谷歌似乎不尊重这个意见。最后在2015年GFT月离线。但是,此后也只能收集有关用户的搜索数据,并向美国疾病控制中心和一些研究机构提供。

为什么蓝牙第一次预测顺利: AI算法和人工分析协奏曲众所周知。谷歌当时正在部署人工智能。2014年收购了DeepMind,但保持了独立国家的运营。

另外,Google对GFT的重新投入也不太引人注目,因此也没有考虑将AI重新追加到GFT的算法模型中,而是自由选择了让GFT南北“安乐死”。完全在同一时期,今天我们看到的BlueDot诞生了。

BlueDot由传染病专家卡姆兰汗(Kamran Khan )建立传染病自动监视系统,通过每天分析65种语言的约10万篇文章,追踪100多种传染病越来越激烈的情况。他们试图用这些定向数据收集来了解潜在的流行传染病越来越激烈和蔓延的线索。

BlueDot仍然用于自然语言处理(NLP )和机器学习(ML ),可以训练这个“疾病自动监视平台”,识别和避免与数据相关的“噪音”。例如,系统认为这是蒙古炭疽病的加剧,意味着这是1981年正式成立的重金属乐队“炭疽”。

例如,GFT意味着将搜索“流感”的用户解释为有流感的可能性,似乎很多时候无论用户如何都低估了流行病的正确性。这也是BlueDot与GFT区别开来过滤重要数据的好处。正如这次新型冠状病毒疫情的预测,卡姆兰作出了响应,BlueDot通过搜索外语新闻报道、动植物疾病网络和官方公告寻找疫情消息来源。

但是,这个平台算法没有用于社交媒体的发布内容。因为这些数据太杂乱了,容易频繁出现更多的“噪音”。关于病毒加剧后的传播路径预测,BlueDot偏向于采访世界机票数据,适合寻找感染病毒的居民的动向和行动时间。1月初,BlueDot也顺利预测从武汉新型冠状病毒加剧后,几天内从武汉扩展到北京、曼谷、首尔、台北。

新型冠状病毒越来越激烈不是蓝牙的第一次顺利。2016年,通过对巴西寨卡病毒传播途径建立AI模型的分析,BlueDot预测顺利提前6个月,在美国佛罗里达州经常出现寨卡病毒。这意味着著BlueDot的AI监测能力能预测流行病的地区在轨迹上扩展。

从结束到顺利,蓝牙和谷歌GFT之间有什么区别? 另一方面,预测技术差异以前的主流预测分析方法采用数据挖掘的一系列技术,其中常用的数理统计中的“回归”方法,包括多元线性回归、多项式回归、多因Logistic回归等方法,其本质在曲线的数值上不同这就是GFT使用的预测算法的技术原理。在机器学习之前,多元回归分析可以获得处理多种条件的有效方法,寻找预测数据犯规最小化、“数值优先级”最大化的结果。但是,将对过去数据没有偏差的预测的渴望恢复到分析中,不能确保将来的预测数据的精度,不会成为所谓的“过剩的数值”。

北大国研究院教授沈艳在《大数据分析的光荣与陷阱——从谷歌流感趋势谈到》的文章中分析说,谷歌GFT显然没有“过剩的数值”的问题。也就是说,2009年GFT可以很好地观察2009年到2009年的所有CDC数据。使用的训练数据和检查数据找到最佳模型的方法参考了——不惜高度数值CDC数据的标准。

因此,在2014年的《Science》论文中,GFT在预测2007~2008年的流感流行率时,经常不放弃看起来奇怪的检索词,而用别的5000万检索词去数值1152的据点。2009年以后,GFT预测的数据将面临更多未知变量的存在,包括其自身的预测将参加该数据对系统。无论GFT如何调整,依然面临过剩的数值问题,无法防止系统整体的误差。

BlueDot采用另一种战略,即医疗、公共卫生专业知识与人工智能、大数据分析技术融合的方式,跟踪和预测了流行传染病在全世界生产、蔓延的趋势,得到了最佳的解决方案。BlueDot主要使用自然语言处理和机器学习来提高这个监视引擎的效用。

随着近年来计算能力的提高和机器学习彻底改变了统计学预测的方法。主要在深度自学(神经网络)的应用中,使用“偏移传播”的方法,可以从数据中大幅度训练,对系统、自学提供“科学知识”,经过系统自学,预测模型没有大幅度优化。模型训练前的历史数据输出是最重要的。

秒速牛牛平台网址

足够丰富的带特征数据是预测模型求训练的基础。去除的优质数据和提取的合理显示的特征是预测是否顺利的关键。二、预测模式的不同与GFT把预测过程几乎传递给大数据算法的结果的方式不同,BlueDot几乎没有把预测传递给AI监视系统。

蓝牙在数据检查后不交给人工分析。这就是GFT大数据分析的“相关性”思考与BlueDot的“专家经验型”预测模型的区别。

AI分析的大数据是选择特定网站(医疗卫生、健康疾病新闻类)和平台(机票等)的信息。AI发出的警告信息也要参与疫情学家的再分析。因此,为了评价这些疫情信息是否在第一时间向社会发表,将进行长时间的实证。

当然,这些案例不能说明BlueDot在预测流行病方面几乎是成功的。首先,AI培训模式也不存在种族歧视吗? 比如,为了防止漏报,不要过高估计流行病的严重程度,有“狼来了”的问题吗? 其次,用监视模型评价的数据有效吗? 例如,BlueDot是否谨慎地用于社交媒体数据,以防止过度的“噪音”? 幸好BlueDot作为专业的健康服务平台,比GFT更不关注监测结果的正确性。但是,专业的流行病专家是这些预测报告的最后发表者,其预测的正确性必须不影响平台的信用和商业价值。

这也意味着BlueDot必须在商业化利益和公共责任、信息对外开放等方面面临一些考验。AI预测流行疾病会加剧。

意思是序曲。“第一个武汉冠状病毒的警告是人工智能吗? ”。

媒体的这个标题显然震惊了很多人。在全球化发展的今天,每个地区的流行病都在加剧,因此,在短时间内有可能传遍世界各地,找到时间和警告通报效率是预防流行病的关键。如果AI需要成为更好的流行病警报机制,可以说是世界卫生组织(WHO )和各国公共卫生健康部门开展流行病防治机制的一种方法。

那还涉及到这些机构的组织如何说AI获得的流行病预报结果的问题。将来,流行病AI预测平台必须获得流行病感染风险水平和疾病传播带来的经济、政治风险水平的评价,协助相关部门做出更稳健的决定。而且,这一切依然需要时间。

这些组织应该把这个AI监视系统列入日程,以便建立迅速反应的传染病防治机制。这次AI早期顺利地预测流行疾病正在加剧,可以说是人类应对这场全球疫情危机的亮色。这个人工智能参加的疫情预防控制之战只是这场消耗战的序曲,期待将来有更多的可能性。例如,主要传染病病原体的AI鉴定是根据主要传染病疫区和传染病的季节性流行数据建立传染病AI警报机制。

AI支持传染病加剧后的医疗物资的优化采购等。这些让我们擦亮眼睛吧。


本文关键词:秒速牛牛平台,秒速牛牛平台网址

本文来源:秒速牛牛平台-www.p-boxshop.com