【大会干货•演讲实录】冯霞:民航旅客大数据分析研究


  • 时间:2016-12-18
  • 分类:热点资讯 大数据 大数据

    10月26日,由中国客户管理产业创新联盟主办,中国客户管理网承办,联合清华大学数据科学研究院、清华大学中国企业研究中心、清华大数据产业联合会、中关村大数据产业联盟等多家机构共同举办的“2016第七届中国客户管理大会暨中国产业大数据营销峰会”在北京召开。

    中国民航信息技术科研基地教授冯霞发表了《民航旅客大数据分析研究》主题演讲,以下为嘉宾发言实录:

    冯霞:各位来宾各位领导上午好!很高兴跟大家分享一下我们中国民航大学民航信息技术科研基地围绕民航旅客做的大数据分析方面的工作。我自己的介绍大概分三个方面:先从大数据和民航的关系说起,很多人都把2011年叫做大数据元年,这是因为在2011年EMC全球大数据云计算大会上EMC抛出“大数据”的概念。2011年以来大数据成为产业界和学术界关注的热点,它成为出现最多的科词汇,包括纽约时报和华尔街日报都有专栏,BBC也制作了纪录片《大数据时代》。

    围绕大数据分析应用,也有人做了非常吸引眼球有意思的一些工作,微软纽约研究院采用大数据分析技术2013年,成功预测了24个奥斯卡奖项中的19个,2014年成功预测了24个奖项中21个,2015年准确预测了最佳电影、最佳导演、最佳男女主角等,2012年美国总统大选预测成功率也非常高。那么什么是大数据,维基百科给出的定义如下:“在一点时间内用传统的数据分析和处理方法无法对内容进行抓取管理和处理的数据集合”。有人这样形容:“我们犹如在数据之海游泳,而这个海平面在快速的上涨”。2012年出版的《大数据时代》是关于大数据研究的先河之作,作者被誉为“大数据应用第一人”。书中第一个案例就是Farecast,它在航空大数据分析方面做的非常好,2014年Farecast停止使用,部分原因是各家航空公司也意识到数据的重要性,使Farecast失去了原有的意义。

    改革开放以来,我国民航一直处在快速发展中。民航的高速发展其实是高度依赖于数据库系统的运转,这些系统包括订座系统、离岗系统等,这些不间断运转的数据库系统聚集了海量的旅客出行相关数据。著名的行业分析师鲍伯指出“航空业是一个浸泡在数据中的行业”,美联航的威尔森也指出“航空业一直在收集数据上做的很好,但他们在利用数据上却不是一直都很擅长。”

    我下面讲一下我们围绕民航旅客大数据分析做的一些工作。越来越多的旅客将航空运输作为自己出行的首选方式,随着互联网技术的发展,各个航空公司也不断的推出自己的在线航空出行系统,一方面,旅客面临着信息过载问题,另一方面,航空公司也面临如何准确理解旅客的兴趣并提供有吸引力的产品等问题。在这个背景下我们这个工作的主要目标就是分析民航旅客的出行数据,对旅客行为进行建模,挖掘出其潜在行为偏好,以帮助预测民航旅客未来的出行行为。我们这里的出行行为包括选择哪条航线、选择哪家航空公司等等,影响旅客出行的因素很多,比如说他想出差,或者想探亲,这时旅客是有明确出行目的地的,因此航线对旅客的吸引力是影响旅客出行选择的一个重要因素。也有一些旅客不知道自己去哪里,只是世界那么大我想去看看,这时他会看看哪些航线更热,影响旅客出行选择的可能是航线的热点。一旦旅客选定航线,接下来就需要选择航空公司,决定旅客选定哪家航空公司的有可能是旅客对航空公司的忠诚度、也有可能是航空公司的市场占有率。我们注意到影响旅客出行选择哪家航空公司选择哪条航线因素非常多,对旅客出行行为建模应该把这些因素都考虑进来。

    因此我们的问题就聚焦在旅客未来一段时间到底乘坐哪家航空公司的航班去哪些地方,我们提出一个概率框架:给定一个旅客U,选定某条航线R某个航空公司C的概率。考虑到不同地区自然环境,人文环境、经济繁荣程度不同,旅客出行会呈现不同的特点,我们从地区入手,选择几个有代表性的地区构建旅客的行为模型。我们这个概率框架具体的演算过程我不介绍了,但是非常巧的是在这个模型中包含了航线对旅客的吸引力、航线自身的热度、旅客对航空公司的忠诚度以及航空公司的市场占有率。

    我们知道这些因素很多可以通过统计计算得到,这里面较为关键的是航线对旅客的吸引力,这是很困难的很难求解的问题。我们在这里引入了主题模型,我们认为旅客和航线都有一定的主题分布,可能商务旅客更多去上海北京这样一些经济繁荣城市,休闲旅客可能去张家界、九寨沟等城市,相应地航线其实也有商务航线和旅游航线的。我们把旅客出行记录当做文档,把旅客当作词,采用主题模型,计算航线对旅客的吸引力。实验使用了旅客订票系统中的数据。我们选择四个热点地区:北京、广州、昆明、重庆。这是在北京地区我们给出TOP-K推荐,我们的方法比基准方法做的要好。广州地区的实验结果也差不多,但是它表现得比北京地区还要好,我们对模型中的α参数做了实验,北京地区它对航空公司的忠诚度占比高一些,重庆和昆明地区旅客对航空公司的忠诚度明显下降,决定旅客选择航空公司的是航空公司的市场占有率。这是第一个案例!

    第二个案例我们做了订票数据中旅客社会网络的研究和构建,社会网络是非常热的一个词,移动通讯中有一些家庭套餐集团套餐,我们民航旅客中也存在或者家人或者朋友或者同事这样的关系,民航旅客中的关系由共同行为体现的,这些共同行为可能是一起订票可能是一起乘坐飞机,这样一些共同的潜在的关系最基本的是多个旅客处在同一个PNR。为了很好地定义民航旅客的社会关系,我们给出了共同飞行次数,共同订票次数,共同订票且共同飞行的次数等旅客关系定义。这个模型地具体确立过程不再赘述。我们的实验也是2010年和2011年两年民航旅客出行数据上做的,我们注意到民航旅客共同出行是普遍存在的一种现象,共同乘机总人数和共同乘机的总次数都占非常大的比例。为了更详细的分析我们构建的民航旅客网络,我们对阈值一二三四做了一个分析,阈值为2共同出行次数都是大于等于2的旅客。

    这是对我们对阈值为1网络的分析,有2000多万旅客共同处在一个巨大的网络中,我们注意到在阈值为3共同出行次数大于等于3这样一个网络中小事件现象非常的明显,还有460万旅客共处在连通网络中。这是联通子网络中包含的153个结点和1814边,连接边最多的旅客结点是导游,但是它是被动关系,我们发现最有价值的是明星和它的经纪人这样一些团体是非常有意思的旅客网络,可以帮助航空公司更好的做好营销和服务。

    接下来给大家分享一下旅客潜在飞行需求和潜在旅客高价值发现。通常航空公司关注的都是出行频次很高,买票价格很高的旅客,而忽视了那些当下乘机次数很少但是未来有很大潜力升值为乘机次数多的旅客,我们的研究就聚焦在寻找那些当下价值较低但不远的将来可能价值很高的旅客,即潜在高价值旅客。我们认为旅客的潜在价值取决于它未来的乘机需求,也即是他对各个航线选择的概率,这是非常类似于我们在网页点击的行为,我们根据搜索引擎中查询和推荐的算法,构建了旅客-航线二部图,采用随机游走算法发现旅客的潜在乘机需求。这里我们给出了旅客潜在乘机需求计算公式,我们的基准算法是传统的里程法、RFM法。实验结果表明,我们地算法比基准算法多找出5%的旅客,这些旅客都是2010年乘机次数比较少,但是在2011年乘机次数发生快速增长的旅客。

    以上就是我们围绕民航旅客做的一些大数据分析方面的探索,距离实用可能有一些工作要做。

    接下来是我个人的一些思考,大数据分析是一把双刃剑,前一些天中央电视台《焦点访谈》也揭露了中航信息泄露黑幕,我们用大数据做分析实现精准营销和精准分析,那么同样犯罪分子也可以利用大数据实现精准欺骗。实际上韩教授提到的个人隐私,我们个人的信息都被各种数据供应商成为数据产业链无偿的原料,我很理解自己的信息被人分析被人收集,但是作为个体而言自己所有的小心思小秘密被分析被发现并不是令人愉快的体验。那么大数据属于旅客还是数据企业?从民航来讲更加复杂,它是属于民航公司还是属于旅客还是属于代理人、中航信等?都非常值得探讨。还有数据安全问题,这里面包括从数据获取、数据分析处理,以及数据分析结果的安全,需要做好数据的开放和保护之间的均衡。好的,谢谢大家!


[上一篇] 亚马逊在新零售上先行一步,中国电商被打脸?

[下一篇] 极致的客户体验,绝对不是“接触点管理”那么简单