成电讲堂

分享到微信 ×
打开微信“扫一扫”
即可将网页分享至朋友圈
【国际青年论坛】余乐安:大数据分析挖掘技术及其决策应用
文:学生记者团 图:邝俊 来源:新闻中心 时间:2015-05-05 5080

yu.jpg

国家杰出青年科学基金获得者、中组部万人计划入选者、北京化工大学教授余乐安

  首先非常感谢成电给我们提供了这样一个交流的平台,让世界各地的青年学者来到成电,进行学术与思想的深度交流。我是做数据挖掘和商务智能方面的研究,主要利用数据挖掘做经济金融方面的应用,达到商务智能的目的。

  我主要从三个方面来展开:影响未来的十大技术、大数据分析挖掘技术和大数据分析挖掘应用。首先讲影响未来的十大技术。

影响未来的十大技术

  首先,我们讲影响未来的十大技术,就是要让大家了解世界发展的大趋势,特别是技术发展大趋势。了解世界大势有助于大家在未来工作学习中把握方向、掌控未来。实际上,这十大技术不是我提出的,我只是总结了世界上最大的咨询公司麦肯锡公司和Gartner集团的一些相关资料。

  我们来看第一项,3D打印和个性化制造。现在全世界都在谈论工业4.0,探讨制造业如何才能实现柔性化以满足个性化,这个话题与3D技术是密切相关的。我在这里展示了一些案例,例如3D技术如何打造房屋、机械设备、飞机、汽车,甚至还可以打印人体生命器官。特别是在人体器官打印上,这是一个非常重要的进步,今后人体器官移植的来源可能主要依靠3D打印技术。可能大家也知道,目前人体器官移植的来源主要靠捐赠,但这里面供给远远低于需求,这就是造成了人体器官买卖存在着一个非常大的黑市。我想,如果3D技术能够打造适合人体的生命器官,这将给广大需要移植器官的病人一个千载难逢的机会,并在一定程度上可以遏制人体器官黑市的买卖。

  第二个技术是量子计算,我们现在的计算技术的基本架构还在上个世纪五十年代的基础之上做变革,但这样的变革目前已经遇到了一个难以突破的瓶颈。尽管从上个世纪六十年代开始集成电路一直满足摩尔定律,一个典型的例子就是集成电路越做越精细,即在集成电路芯片上集成的晶体管越来越多,芯片的体积却越做越小。但实际上这是有极限的,因为我们不可能把芯片做到无限小。目前我们就处于这个极限的当口,怎么把极限打破,量子计算是一个重要的核心技术。

  第三个就是云计算。这是一个几年前热炒的概念,时间关系我就不具体展开。这里举一个例子就是阿里巴巴“双十一”的促销,2014年阿里巴巴“双十一”单日成交量达到570亿,从表面上看,这似乎是一个商业促销计划,但实际上是新经济的崛起,背后的技术支撑就是我们的所说的云计算平台。试想,一天之内这么大的交易量,这么高的点击率,如何支持这样的计算量保证不出差错并且服务器不宕机,支持这种交易的背后,依靠的是云计算平台。

  第四个就是大数据,这也是我们今天重点要讲的内容。因为我来自管理学院,我今天讲的侧重点就是大数据,以及它在管理决策方面的一些实际应用。那我们先来看一看,大数据提出的时间点。

  我们都知道雅虎公司1994年成立,1996年上市,它最早做的工作就是把互联网上的所有网页分类整理,因为当时的互联网混乱无序,它所做的这个工作取得了极大的成功,成为上个世纪90年代中期的风云企业,那个时候它是大学毕业生非常想去的一个公司。但那个年代我们只能被动地看网页,不能与网上的内容进行互动,就像传统电视节目一样只能被动的观看,我们称为Web1.0的时代,雅虎的鼎盛时期是8年,他在2004年被1998年成立的Google公司所超越,因为Google公司于2004年成功上市。其实,Google所做的工作很简单,就是主题词的集合,还没有跨越一个时代,我们把它叫做Web1.5时代,它的鼎盛时期也是8年,Google公司的风头被2012年上市的Facebook(脸谱公司)所盖过,由于它的出现,实现了网络用户之间以及网络用户与网站服务提供商之间的良性互动,我们称它为Web2.0的时代,这是一个以社交媒体为顶峰的时代。今天,我们每个人都在这个网络空间中进行互动,例如利用微博、微信来实现互动。如果按照8年鼎盛期的规律,那我们试想下一个八年是谁的天下?是大数据的天下还是Web3.0的时代,还是其他的什么情况呢?我的猜测是利用大数据,让你的计算机和移动互联设备更加“懂你”。

  第五个技术是,新一代的移动互联网。从1994年中国科学院的第一根互联网专线联通国际互联网开始,随着信息技术的飞跃发展,我们从PC时代逐渐发展到移动互联时代。今天,我们每个人几乎都是移动互联的主体,在座的每一位学者都可以通过你的手机、IPAD、只能穿戴式设备与互联网进行连接,与地球村的朋友进行实时互动。因此,新一代移动互联网是下一个互联网金矿,也是一个不可阻挡的潮流。

  第六个就是物联网。物联网技术于2008年前后在中国热得一塌糊涂。随着信息技术的不断发展,现在的概念已经从物联网(Internet of Things, IoT)进化到万物互联(Internet of Everything, IoE),最终要实现人与人、物和物、人与物的高度互联。

  第七个就是先进机器人。现在发达国家的劳动力特别贵,中国面临的老龄化问题非常严重,未来的劳动力如何解决?先进机器人很可能是最好的替代品。

  第八个技术是与我们人体密切相关的下一代基因组。这里面许多学生物的同事比较了解,里面有很多高科技的东西。例如,美国Apple公司的CEO,乔布斯先生患胰腺癌后还能延长2年以上寿命就是基因组的功劳。

  第九个就是移动终端技术。在座的每一位手上都会有很多终端的设备,例如,手机、iPad、智能手表等穿戴式设备。这也是一个大趋势,未来很多工作大家都在手头上就做完了,这是移动终端技术带来的便捷性。

  最后一个就是增强现实技术。增强现实是虚拟现实技术的改进版,利用一些可穿戴设备,我们可以进入到虚拟空间做现实世界想做的事情。由于时间关系,有兴趣的同事可以私下去找资料去详细了解,这里不再详细展开。

  接下来我们主要来分享大数据分析挖掘技术。

大数据分析挖掘技术

  大家可能知道,2012年3月29日美国奥巴马政府公布了“大数据研发计划”,这个计划的目标是改进现有人们从海量和复杂的数据中获取知识的能力,从而加速美国在科学与工程领域领先的步伐,增强国家安全,转变现有的教学和学习方式。这是继美国克林顿政府1993年开始“信息高速公路”计划的又一个重大计划,意在抢占新的高科技的最高点。从那时起,全球就开始热炒大数据的概念。实际上,大数据包括的内容很多,主要包括4大类:互联网大数据、国家大数据企业大数据和个人大数据。

  大数据除了数据量大之外,数据的结构也是日趋复杂,还有很多半结构、非结构化的数据。目前,对于大数据的特征有有3V、4V和5V之分。“3V”就是前面说到的体量大(Volume)、类型多(Variety)、速度快(Velocity);“4V”在3V基础上增加了价值性(Value);而“5V”是在4V基础上增加了准确性(Veracity)。这里我们一一展开加以说明,体量大好理解,就是数据规模很大,基本上都是TB级为基本单位;类型多是指大数据包括各种格式和形态的数据;速度快是指很多大数据需要在一定的时间限度下得到及时处理。价值性是指大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。例如,一个单独的数据就像超市里的一个购物小票,几乎是没有价值的,但是汇聚在一起就可能产生了巨大的价值,沃尔玛“啤酒与尿布”就是一个典型案例。再一个就是准确性,即大数据处理的结果要保证一定的准确性。例如,有一段两个小时监控视频,我们要找到其中一个关键犯罪证据,可能只有其中5-6秒的图像是有价值的。我们怎么找到这5-6秒,那就是我们大数据分析和挖掘要发挥作用的地方。

  接下来,我们要考虑当前和未来怎么来应对大数据,我们现在的架构还是分布式的计算。当前有软硬件的应对方案,在硬件上基本是应用PC服务器集群,比如,Google公司有百万台的服务器集群,国内的阿里巴巴、腾讯和百度都有大量的PC服务器集群。近些年,阿里巴巴通过云计算平台的建设,目前应该建成了世界上最大的PC服务器集群,主要通过异构硬件的整合,把大型机、小型机和PC机进行整合,实现虚拟化计算能力。在软件上主要采取软件虚拟化技术,通过应用虚拟化和程序语言虚拟化。这些技术可能很多在这个领域的同事比我更了解,我这里也不展开讲。

  接下来应对大数据的一个工具就是内存计算。我们说大数据的价值之一就是速度要快,那怎么来实现速度快?加速数据的访问就是内存计算可以发挥作用的一个重要场合。传统的通过磁盘读取时需要五个毫秒,而通过内存的读取只需要五个纳秒。现在我们用多核内存读取数据,就是大数据的一个重要处理方法。另一个就是最小化数据的传输,未来的数据传输方式将要改变传统从应用层到数据层的弊端,改为从数据层再到应用层。这里HANA是SAP公司推出的一个高性能分析查询的一个具体应用,也是内存计算的典型案例。

  再一个就是数据分布式处理和挖掘的软件。像报表、查询、多维分析、警报等都可以比较容易地实现,但预测、预警、优化等怎么来实现?大数据分析挖掘还存在着很多的瓶颈。

  最后一个大数据处理技术就是分布式云分析的数据挖掘引擎。我们传统分析挖掘引擎是以数据找算法,排队等待计算,速度缓慢。那我们未来面对分布式云分析的大数据挖掘引擎,是用算法去找数据,即云端程序下沉找到数据在客户端进行计算以后,再把结果返回存到云端。这就是我们未来从事大数据分析挖掘要体现的一个重大变化。实际上,大数据概念炒得很热,真正能在未来大数据中发挥作用的是我们的数据分析师和数据挖掘专家。他们是大数据时代真正的淘金者。为什么要这样讲?我们讲到刚才两小时的视频中你要找到5-6秒的有用信息。怎么找?那就是大数据分析和挖掘发挥作用的地方。

  接下来我们重点讲大数据的具体应用。

大数据的具体应用

  大数据如何应用,是每个人都应该关注的问题。可以毫不夸张的说,大数据可以提升政府的治理能力,改进企业的决策水平,改变我们每一个人的生活。

  首先,从国家角度,大数据可以治国。我们这里举“克强指数”的例子。十八大以来,李克强总理对于经济的发展情况除了听取相关政府职能部门的汇报以外,他自己主要看三个数据,一个是供电量,一个是贷款发放量,一个是铁路货运量。这三个量与我们国家的经济增长,工业企业利润增长,都是高度相关的。这三个量看起来与GDP增长关系不大,但很关键,让我们的总理很容易就掌握了经济发展的情况,看来我们的总理是大数据时代的弄潮者。

  大数据在政府的应用还有很多,比如医疗卫生方面,利用网上商店药品的销售,可以做某些地区的流行疾病的预测。一个典型例子就是,通过淘宝网的数据来看购买板蓝根的情况,通过阿里巴巴的数据信息,我们可以成功预测禽流感疫情和流行区域。另外,公共安全、交通、反恐、应急、防洪防旱都可以用大数据来做。

  在企业里,典型应用就是在电子商务领域中的精准营销。一个体验就是你在网上买书或买商品之后,经常你会发现第二天就会收到一些与你买的物品相关联的商品促销信息,商家利用大数据分析掌握了你的需求,从而实现精准营销。还有一个典型的例子就是互联网金融。大家在淘宝、天猫上购买商品,这些记录帮助阿里巴巴建立起了一个上亿人的互联网信用记录。根据这个网络信用技术,阿里巴巴现在开辟了一个做金融服务公司。也许,好多年后,阿里巴巴让人引以为豪的不是它的电子商务,而是他的互联网金融。

  另外,企业中的很多制造业,包括能源监控、人员调度、安全监控、物流通信等都有大量的大数据应用空间。在电子商务领域买家分析广告投放优化、行业市场的份额等。

  对于个人来讲,很多做大数据挖掘的人都见过关于Google关于电影票房预测的例子。电影票房预测由于有很多不确定性,其实很困难。但是Google公司只是利用了网上搜索电影宣传片的搜索量,就很好地预测了一部新电影的票房。

  在大数据时代,我们如何大数据情景下的决策。美国迈阿密大学工程学院院长、美国工程院院士James Tien等总结出了大数据时代决策问题的一些特点,指出:全球供应链管理问题、全球经济监测预测预警与政策仿真系统、全球风险下金融市场投资决策问题、大型城市交通决策支持系统、大型城市社会管理问题、大型城市医院管理决策支持系统、大型城市应急管理决策问题、大型城市物流配送决策支持系统、大型城市环境监测决策支持系统、大型交易平台数据挖掘问题、Social Media Data挖掘问题、Social Business、决策剧场等问题是未来从事大数据决策领域的一些重要问题。

  最后,我借助李嘉诚曾经说过的一段话来结束我今天的演讲。他说说:“鸡蛋,从外打破是食物,从内打破是生命。人生亦是,从外打破是压力,从内打破是成长。如果你等待别人从外打破你,那么你注定要成为别人的食物;如果你自己能从内打破,那么你会发现自己的成长相当于一种重生”。所以说身处在大数据时代,我们是被从外面打破成为别人的食物,还是从内部打破重生成长,成为时代的引领者?我想对于在座的各位,这个打破就是我们自己就赶紧从国外回来。谢谢大家!(学生记者团 蒯若馨 根据现场录音整理,已经本人审阅)


编辑:罗莎  / 审核:林坤  / 发布:林坤