Una-May O'Reilly应用机器学习和进化算法解决了世界上最大的大数据问题。
MIT(麻省理工学院)的计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory (CSAIL))的多尺度学习(AnyScale Learning For All (ALFA))小组旨在解决最具有挑战性的大数据问题——这个问题超出了传统分析学的范畴。ALFA应用最新的机器学习和进化的计算概念来解决多维复杂的问题。 ALFA的主任同时也是CSAIL的首席研究科学家——Una-May O’Reilly认为:“人们这些天来从不同的渠道得到很多的数据,我们正在帮助他们打通这些渠道的信息交互。” ALFA团队正在解决从布置风电场到研究和分类血压脉动信号来预测心跳的一系列问题。该团队也在研究分析大容量的数据来预测大型开放式网络课程 (massive open online courses,MOOC)的学习行为,甚至是帮助美国税务局来防止高额的逃税避税。 ALFA喜欢直接分析原始数据,运用可拓展的机器学习和进化计算机算法等方法来研究数据。 “机器学习对于反复研究数据来说是很有用的,它可以帮助你预测未来,” O’Reilly说道,“进化计算机的原理亦是如此,特别适合于高维度的大规模计算问题。” 过去,机器学习受限于缺乏有效数据来推断预测模型或者合理的分类。O'Reilly说,“现在我们有很多数据,因此我们有规模合适的机器学习能力来努力解决大规模的数据,同样我们也要改进机器学习的容量以匹配额外的高维度计算问题。” O’Reilly对ALFA的另一主要工具尤其关心——进化计算能力。“这是从进化论中得到的灵感,就像基于人口的适应性和遗传继承性,将他们带入一个有效的计算模型中”,她认为,“在工程中,我们通常使用进化算法来优化如协方差适应矩阵和离散数值法。同样,一个可以并行计算的进化算法将会带来很多的便利,这可以处理很多数据,并发现新的问题。” 在进化领域,O’Reilly对遗传很感兴趣,她是这么认为的,“遗传就是一个项目的演进”,她补充道“我们将遗传算法遍布许多节点之间,我们可以平行计算或者联另求解独立的方程,我们排除弱的影响因素,留下较强的因素,组成一个新的集合。我们已经证实,集合模型比单一模型更加的准确。” 布置风电场 O’Reilly说,“ALFA的最成功项目之一是开发算法来辅助设计风电场。该问题显然是高维的,特别是有数百个透平。” 她说,“在优化透平摆放的位置时候可以看到在某点处,有很高的效益,但这的确是一个很复杂的问题。首先,透平本身有很多的参数,如透平能耗,高度和锥角。你必须找到这个位置需要多少风量,进一步,你要获得风是从哪里来的,风力多大。此外,还要考虑风掠过的时候的地形因子等等。” 最难的变量是衡量风经过一个透平后的减弱作用对于后面一个透平的影响。O’Reilly说,“我们努力去构建一个复杂模型来计算这个风经过每个透平后的损失。” ALFA找到了如何应用并行进化算法解决一个含一千多台透平的风电场。O’Reilly说“我们有能力解决一个比现在人们解决的规模还要大的风电场的透平布置的问题。” 最近,ALFA已经有一个实地样板的设计模板。她说,“现在,我们基于创新性的概念来开发一个可以在任何地方放任意数目的透平的项目,我们正在进行是一个工程设计远非实地设计。” GigaBEATS:读取血压数据 许多相同的用于风电场布置的创新和机器学习的概念应用于临床医学。ALFA正在尝试从医学传感器获得生理数据,包括睡眠时候的心电图和血压数据。 O’Reilly说,“临床医生对于这些数据是束手无策的,我们擅长分析信号信息并结合机器学习以做出更好的预测。” O’Reilly说,“一般研究者往往只获得少量的样板数据然后花费了18个月的时间分析数据,但我们想将18个月的时间压缩到几个小时。” ALFA正在做一个叫GigaBEATS的项目,该项目目的是从很多的生理数据中得到有用的信息,项目已经研究了从重症监护病房的病人中分析研究他们的血压数据。 O’Reilly说,“我们正在研究每次跳动的微小变化,最终我们将所有的关于可以让我们预测血压升高的信息集总在一起。” ALFA团队已经开发了一个名叫BeatDB的数据库,“该数据库不仅涵盖了每次跳动的波形,及每次跳动的特征”,O’Reilly说。BeatDB数据库已经储存了超过5000个病人的数十亿的血压信息。 O’Reilly解释道,“每一次我们描述时间序列的形态特征,一旦我们建立一整套关于信号的基本数据,我们可以提供技术上的服务,处理新的信号数据。” 因为BeatDB涵盖了很多心跳的数据,医生可以根据历史数据做出预测。“提前15分钟预测心跳,需要数小时的病人心跳数据。” O’Reilly说,“因为BeatDB的数据需要收集,然后利用机器学习算法,医生不必一遍又一遍的计算。他们可以通过实验几组数据,然后对模型进行校准。” 最近,O’Reilly开始着手于开发新技术来填补ECG数据,“我们希望在量化的条件下收集并研究数据。”这里O’Reilly指的是用穿戴设备来追踪个体的内部数据。 O’Reilly说,“现在越来越多的人通过穿戴的Fitbit来告诉他们什么时候累了,他们需要休息多少时间。解释这些肢体信号就类似于Gigabeats项目。通过一个云端的BeatDB数据库可以帮助人们分析信号。 译自:http://newsoffice.mit.edu/2015/una-may-oreilly-evolutionary-approaches-big-data-problems-0114
本文版权归研发埠所有,如需转载请注明出处! |