——数据虚拟化工具可以识别异常结果和验算可视化的来源。 图片提供:Christine Daniloff/麻省理工学院 在大数据时代,可视化工具是至关重要的。在图形显示上只需看一眼,人类便可以识别电脑甚至可能经过几个小时的分析都找不到的模型。 但是如果模型中有异常?或者如果只是一个视觉模型的细微到明显不足以证明任何强大推论的迹象?或如果模型是明确的,但并不知道预期的是什么? 麻省理工学院计算机科学和人工智能实验室数据库组公布了一个数据虚拟化工具,在图形显示中,用户可以突出异常和可能的模型;然后该工具可以自动确定哪些是数据源。 例如,它可以在许多传感器中挑出正常模式读数下的几个错误,或者拖累公司的销售数字中表现不佳的代理商,或者在医院排气口堵塞情况下,可能增加几个病人感染的风险。 大数据是大生意 大数据可视化是大生意:Tableau软件公司,出售了一套可视化工具给一个40亿美元的公司。在创建有吸引力的信息图形时,大多数可视化软件丢弃大量的有用数据。 “如果你看看人们传统上产生的可视化,他们会有一些大而丰富的数据集(也许是数以亿计的数据点,或记录),他们会做一些设置减少到数百或数以千计的记录,”Samuel Madden说,他是计算机科学和工程教授和一个数据库组织的领导人。“做这种减少的问题是,你失去了来自于输入数据集的输出数据点信息。如果其中一个数据点是异常的(例如,是一个异常值),你没有任何能力回到数据集,并问,‘这是从哪里来的,它的属性是什么?’” 这是一个解决问题的新的可视化工具,被称为DBWipes,这是电气工程和计算机科学的研究生Eugene Wu的论文设计。他与Madde,副教授Michael Stonebraker一起开发了DBWipes,设计了一个新颖的大型数据集的“起源跟踪”系统。 如果一个可视化系统将1亿条数据总结为100点呈现在屏幕上,然后每个100点再以某种方式总结(也许是平均)为100万数据点。Wu的源头追溯系统提供了一个紧凑表示总结数据的来源,这样用户可以很容易地跟踪可视化数据的来源。反之,跟踪提到的源数据点将被呈现。 起源跟踪的想法并不新鲜,但Wu的系统尤其适合在数据可视化下追踪异常任务值,而不是简单地告诉用户用来计算异常值的百万条数据的输入。它首先确定那些最异常值的影响,在人类可读方面总结这些数据的输入。 相关优秀论文 Wu和Madden的“Scorpion”算法在去年大数据库会议上被选为最好的论文之一。该算法跟踪记录负责DBWipes可视化的特定方面,然后有效地重新计算可视化,排除或强调它们所包含的数据。 如果一些可视化的点显示一个规律,用户可以强调它们,并标记为“正常数据”;如果是一些断点模型,用户也可以强调它们,并标记为“异常数据”;如果模型是令人惊讶的,用户可以在屏幕上显示预期的模型进行对比。 然后Scorpion追踪高亮显示点的源头,过滤源头到最可能影响异常值的子集。他们的论文介绍了几个属性的具体计算,可用于开发寻找这些子集更高效的算法。 Madden说,Scorpion算法的部分动机是出于研究人员在波士顿一家医院进行的一项研究,他注意到患者的一个子集,医院一些病房的病人治疗成本远高于其他人。任意因子都可能是受影响的:比如病人的年龄和健康,他们的疾病严重程度,他们特殊的病症,他们的健康计划,或者邻近医院一样陈腐的事(贿赂),什么也不能被排除。 工作六个月后,研究者得出结论,大部分病人治疗费用上的变化由一个变量可以解释:他们的医生。事实证明,在医院工作的有三个医生,不遗余力的努力,比其他同事简化更多规定的干预措施。 作为一个实验,Wu和Madden把研究者数据的Scorpion调松。在五分钟内,得出的结论是,医生的名字与病人治疗费用增加的数据点最强烈。因为它需要梳理一个巨大的数据集,像所有大数据搜索算法一样,为了效率不得不牺牲一些精度,在6个月的研究中无法查明只是三个医生。但这确实是10名医生为一列产生的最有可能形成成本差异的,而且这三个医生就在其中。Madden说,“至少你会知道该从哪里开始看”。 “DBWipes和Scorpion是一种很好的新型分析工具的例子,成功地利用机器学习与交互式可视化来探索数据分析,”英国电信公司首席分析研究员Martin Spott说,“对许多企业来说解释数据中的异常值是相当有用的,并且Scorpion承诺解决此类问题比现有的方法更快和更优雅。”
原文链接: http://newsoffice.mit.edu/2014/visual-control-big-data-0815 本文版权属于研发埠所有,如需转载请注明出处! |