即可将网页分享至朋友圈
新加坡国立大学高级研究员张东祥
各位老师,各位同学,大家好。我是张东祥,来自新加坡国立大学。非常荣幸有这么一个机会,来到成电的国际青年学者论坛,与大家一起交流探讨。
一 新加坡的“智慧国家”样本
今天我的报告的主题是《展望智慧城市:移动互联网技术和应用》。首先,我先介绍一下新加坡目前的科研情况。新加坡是一个很小的国家,国土面积为626.4平方公里,城市面积占绝大部分,所以我们在地图上看,它就是一个非常非常小的点,但这么一个小小的岛国,非常重视科研与创新。比如在2011年到2015年,它的整个国家科研基金的规模是160亿新币,按照现在的汇率,大概是730亿人民币。另外,新加坡已经将建设“智慧国家”列为未来的重点战略。因为我本人是来自计算机领域的,所以我大概介绍一下新加坡政府在计算机领域的技术投入。
这一投入主要体现在两个方面。第一个方面是,新加坡政府投资与国外知名大学合作组建多个研究中心,比如说它与MIT(麻省理工学院)、CMU(卡内基·梅隆大学)、UIUC(伊利诺伊大学厄巴纳-香槟分校)等老牌美国名校都有合作,还与清华大学、北京大学、上海交通大学、浙江大学也建立了一些研究中心。像我本人就是来自新加坡国立大学和清华大学合作建立的研究中心。这个研究中心之前每年的项目规模大概是一千万人民币,这些钱全部是新加坡政府出资的,现在已经进入到第二期。第二期又引入了英国的南安普顿大学,而且资金规模也翻了一倍。另外在工业界,新加坡政府也积极和IBM、SAP和Fujisu等国际知名企业合作建立一些研发中心,所以整个资金投入非常巨大。
除了资金的支持,政府和企业也提供各种数据来为科研服务。比如说新加坡最大的出租车公司提供了一万多辆出租车一年的行车记录。这些出租车大概采样频率是半分钟到两分钟不等,采样的信息包括每辆出租车当前的位置信息、行驶的速度以及行驶的方向。另外,新加坡的路交局(相当于中国的交通局)也提供了新加坡几百万居民一年的行车记录。在新加坡,公交车和地铁是一样的,上车的时候刷一次卡,下车的时候再刷一次。这样我们可以很明确地知道居民每天的活动轨迹。新加坡接下来有一个计划是让所有中小学生佩戴一个传感器,用来实时收集数据。他们会设计成可以佩戴的挂件,挂在胸前或者直接挂在书包上,很方便地实时收集数据。同时我们跟新加坡国立大学医院也有合作,他们提供十几万个病人一年的化验、用药等的记录。此外,新加坡有非常非常大量的视频监控数据,现在视频分析还处于非常初步的阶段,所以未来还有很大的发展空间。
二 我在移动互联网中的前沿又“接地气”的工作
接下来介绍一下我个人在移动互联网方面的工作。我的工作大概可以分为四类,都是在近两年完成的工作。第一类是关于智能交通方面,我们做了一个实时最优导航的工作。第二类就是大规模智能检索,也就是手机端的搜索,我们主要做了两方面的工作,一个是基于地理位置的检索,另一个是跨媒体检索。第三类就是广告投放,我们考虑两个方面的因素,如何在社交网络投放广告,还有就是如何在移动物体上投放广告。第四类就是大数据的信息订阅,因为我们正处于一个信息爆炸的时代,所以一个有效的信息过滤手段是非常重要的。
(一)做“最聪明”的导航系统
说到导航,大家都不陌生,现在的导航已经做得非常好,非常人性化,不仅有精确的路线推荐,而且有林志玲和郭德纲的配音。我们这里要做的实时最优导航,并不是说我们要去颠覆已有的导航系统,而是作为一个补充。我们考虑在路况信息一直实时变化的情况下,如何保证我所走的路线一直是最快的。其中技术难点是,一般导航系统的路线推荐都会依赖历史数据,研究者们会对历史的交通路况进行建模。而我们想做一个系统可以完全依赖最新的路况信息,所以需要实时监控所有的导航车辆,如果发现他们之前的导航路线不是最快的,就要立刻通知司机。这里的“不是最快”有两种情况,一种是原来的导航路线变拥堵了,另一种可能是原来的路线没有堵,而我发现了一条更加通畅的道路。比如说一辆出租车按照原来的路线行驶,有一棵树因为下暴雨被风刮倒了,系统就会检测到这条路被堵,及时给这辆车一个新的路线。过了一段时间这棵树被清理掉了,路也变通畅,系统会立刻把这一情况告诉司机。在技术实现上,我们用到了之前提到的新加坡一万多辆出租车的数据来模拟实验环境,然后利用车辆的监控数据,包括它的GPS信息、速度来预测一个特定时间段的交通状况。每条路状态改变的时候,系统会反向寻找,有哪些正在行驶的车辆受到这一改变影响,我们会为他们寻找新的最快的路径。我们考虑路况的实时变化,这需要非常强大的云计算能力。我们的系统是部署在一个十台机器的集群上面,也就是所谓的云计算。与现有的导航系统相比,我们的优势是,实时响应能力更强一些。所以很适合拼车等比较需要动态优化的场景。
(二)实现大规模智能检索
我们第二类的工作是关于手机端的搜索。现在越来越多的信息都带有地理属性,所以如何实现记忆用户当前位置的搜索,是近几年比较热门的一个研究课题。它的应用场景包括,我要寻找周围相关的餐厅,然后让这些餐厅按照到我这里的距离来排序,或者说我想搜附近关于某一个话题的微博。它的技术难点是说,传统的搜索引擎通常是对网页进行索引,通常考虑的是文本信息。现在的技术可以轻轻松松支持几百亿的网页,但是如何把空间索引和文本索引联合起来,是一个技术难点。我们提出一个空间降维的方式,把空间信息和文本信息统一索引,最后实现对一亿个带有地理信息的微博,进行毫秒级别的检索。同时我们还把这个工作进行推广,比如说连续移动查询。
关于连续移动查询,举个例子,我输入一个查询“成都小吃”的流程,之后我的位置不断变化,但我不用每次都去搜,它的结果会自动跟着我的位置变化而变化,我就可以时时刻刻知道哪些成都小吃是离我最近的。另外一个扩展工作叫方向感知查询,比如说我不一定搜我附近的成都小吃,我可以搜具体某个方向范围内的成都小吃。这个可能在开车的时候会比较有用,我可以只关心在我车子前方的成都小吃,那些在我车子后面的虽然很近,但我不太可能再绕回去。
关于手机端搜索,我们的另外一个工作是叫作跨媒体信息检索,这个可能大家没怎么听过。我举一个例子,比如我看到这一张很酷的电影海报,可以拿手机拍照,然后直接用这张照片对网页进行搜索。可能反映回来的第一个信息就是,豆瓣上关于《速度与激情7》的影评。这就是一个用图片来搜素网页的例子,也是跨媒体信息检索的一个典型应用。在技术实现上,我们是用深度学习的方法,把图片和文字都映射到同一个隐含空间,然后再用高维索引技术来实现快速检索。
(三)社交网络和移动用户体上的广告投放
现在要介绍的第三个工作,是关于广告投放方面的。首先我们考虑的是社交网络的广告投放。如果我有一个广告,要在微博或者推特等媒体社交传播网络上投放,怎么做才能达到最好的传播效果?这里举一个例子,在电子科大国际青年学者论坛举行之前,我们要大面积的扩散这个信息,吸引更多的海外精英们前来参加,如果要在微博上面投放这个广告,是找申恒涛老师进行推放,还是找林志颖推放效果会比较好?虽然两个都是帅哥,长得又几分相似,但是呢,申恒涛老师是学术圈的,他的相关度比较高,传播也比较精准;但林志颖是娱乐圈的,粉丝众多,可以以量取胜,所以最终谁的传播效果会更好,不好下定论。所以这里的技术难点是说,网络上会包含上亿个活跃用户,在衡量传播效果的时候,要考虑用户与广告之间的相关性,所以不一定是说大V的传播效果就一定更好。在技术实践上我们是对社交网络上关于特定话题的传播进行建模,用采样的方式最后可以得到一个近似的最优解,因为这个是不可能得到精确最优解的。我们的实验面向四千万个用户,大概十三亿条的社交网络实现实时广告投放。
第二个关于广告投放的工作是说基于移动用户体。比如在公交车上面投放,应该选择哪几辆车来放某一广告呢?在技术实现上我们也是用交通卡上的几亿条数据对用户的出行习惯进行建模,然后分析每个用户对广告影响的概率,最后形成K条路径影响最多的用户。
(四)大数据方面的信息订阅
我今天介绍的最后一项工作是,大数据方面的信息订阅。第一个工作是线上产品的订阅,比如一个大型的电子商务网站,它可能包含上亿件产品,产品的信息(特别是价格)经常变化的,同时通常有产品下架,或者新产品上架。比如在亚马逊,大约有两亿多件产品,不同的用户可以根据自己感兴趣的产品设置自己的定位条件,比如这位男士可能对iPhone5s感兴趣,而且他要求的颜色是土豪金,容量是32GB,价格要低于500美金。这位女士可能对意大利皮包比较感兴趣。这位大叔可能对大数据方面的书比较感兴趣,他的订阅条件也设置得比较高级,可以设置成正则表达式。
所以我们最重要的实践就是做一个通用的订阅系统,实时服务几千万个用户对整个产品的订阅。只要产品信息改变,比如新产品上架,我们就要立刻找到有哪些用户跟这些产品信息是匹配的,然后通知他们已经有符合他们要求的产品出现。在技术实现上我们是对用户订阅信息进行两层切分,然后用倒排表索引提高检索效果,同时我们实现了对千万用户订阅信息的实时监测,添加新产品或者更新产品信息,我们都会进行一个新的匹配,而这个匹配我们现在已经做到只需要几个微秒就可以实现。
我要介绍的最后一个工作是关于线下的移动订阅,也就是说,用户在手机端输入一个订阅条件。我们假设,用户是实时移动的,那么如何实时监测用户的位置信息,当他周围有一些匹配的产品,就立刻通知他。这个问题是上面一个问题的线下版本,上面一个问题中,产品是放在网站上的,而这里的产品,是在真实的商店里,所以这个产品自己是有一个地理位置的信息。我们又要监控很多个订阅用户的位置信息,所以整体难度会很大。同样的技术难点是,如何去实时监控用户位置,避免错过一个感兴趣的活动?比如,当他走到一个新的地方,正好附近有他感兴趣的打折活动的时候可以通知他。但我们不可能实现,用户每一次更新,我们就做一次匹配,这样通讯量就太大了。我们技术实践上是为每一个用户构建一个最优的安全区域,可以保证,在这个安全区域内,是不会有任何与你匹配的产品或者活动的信息,所以只要用户还没有走出这个安全区域,他不需要向服务器汇报这些信息,这样就可以节省很多通讯量。
三 未来的工作
在报告的最后,我介绍一下我们未来的一些工作。第一个是大规模图片视频分析,典型的应用比如刚刚提到的拍照购物应用,箭头会涉及到一个大规模的图片检索;另外一个就是如何去做摄像头视频实时监控,这非常考验整个系统的数据实时运算能力。
第二个工作是,如何从大规模用户出行数据去挖掘和监控一些有用的信息,比如我们可以从几百万用户的交通卡数据去挖掘他们的人物关系,或者对于中小学生佩戴的传感器实时监控,提供一些危险预警功能,这些都是具有很好的社会效应。同时,新加坡也在策划下一代养路费系统的构建,因为新加坡现在的养路费是按照车辆的吨位向每人收取固定的费用,大概一人几千人民币。下一代养路费系统就要改成Pay as you go的形式,也就是和水电费一样,这个路你用多少,我收你多少钱。所以新加坡就需要监控并统计车辆的行驶记录,然后根据车辆真实的使用情况来进行收费。
我们最后一个未来工作是关于智能精准信息推送方面的,比如说我们可以根据用户的历史出行和消费记录进行建模,目的是为了实现或者搜集。一个典型的场景就是,如何利用微信的摇一摇功能,实现精准的优惠券推送。(学生记者团黄土地、张雅倩根据论坛现场录音整理,已经本人审阅)
编辑:罗莎 / 审核:林坤 / 发布:林坤