高居泰:非结构数据文本分析与行业创新应用


  • 来源:客户管理网
  • 作者:高居泰
  • 时间:2017-05-11
  • 分类:热点资讯 大数据 大数据

    前面几位专家在大数据和智能化领域做了相关的介绍,下面我做一个关于非结构化数据文本分析以及行业创新应用分享。主要有三个部分:第一是非结构化文本分析概述,第二是SAS文本分析解决方案,第三是SAS文本分析应用案例。

    第一非结构化文本分析概述

    相对于非结构化数据而言,我们目前处理更多的是结构化数据,因为结构化数据在我们很多业务和交易当中使用,它产生的数据都是结构化的行式数据。非结构化数据不能按一行表示,它是一个文本、文档、图片、图象或是音像,这些都属于非结构化范畴,例如,互联网网页等内容就是非结构化数据。

    随着大数据概念的提出,现在开始对非结构化数据开始研究,发现我们整个世界中存在的数据里,非结构化数据占比非常大,已经达到80%到85%,而且每年增长速度非常快,因为互联网时代大家都在线上做一些相关沟通和交易,从而产生更多的非结构化数。我们看到第三方IDC的报告中,阐述了目前整个大数据有1.8万G级,非结构化数据占百分之八九十。

    如果说结构化数据用详实的方式记录了企业的生产交易活动,那么非结构化数据则是掌握企业命脉的关键内容,所反映的信息蕴含着诸多企业效益提高的机会。因此,只有解决非结构化数据的分析困难,才能有效挖掘这些数据背后的价值,驱动企业价值提升。

    近两年大家对人工智能产生重视,人工智能的能力分成四个方面:NLP自然语言处理、机器学习、语音识别和图像识别。可以看出人工智能涉及的更多的是非机构化数据。其中对于自然语言处理,就是其中的很重要的一个领域。

    对于自然语言处理即文本分析来说,最基础的是分词。如“提高人民生活水平”这是一个文本,首先要做词法分析,看这句话里面包含哪些词,然后进行切词,这句话可以有很多的切词方法。对于一句话如何切词,要同时考虑语法和语境,在保证语法无误的前提下还要确保上下文语义合适,没有歧义。从整个自然语言处理的应用方面,由于非结构化数据在整个数据量比例非常大,我们可以看到它有很多很大的应用空间。关于其应用,在智能搜索方面已经应用多年,百度、Google都是在做这方面的应用,还有其他公司研究语音识别和智能机器人。但实际上应用最广的就是文本分析,主要技术是文本解析、文本分类、文本聚类、文本内容摘要提取以及文本过滤等。

    第二SAS在文本领域可以做什么

    SAS文本分析能力可以做文本的分类、文本聚类、信息提取、摘要提取、情感分析等;SAS文本实现方法包括机器学习,规则引擎,或者两者结合起来的混合模式。

    以银行用呼叫中心为例,每天接到很多客户的咨询或投诉电话,我们把它转化为文本,然后去分析客户的主要诉求点是什么,客户关注什么样的服务。如果用人工浏览方式耗时较长,用自动化机器学习的方式找到业务诉求点,同时找到产品和流程的一些问题是目前很多银行或者企业特别关注的。我们首先需要将录音转换成文本,形成文本数据,其次要做文本解析,要对标点符号和词义词句做设置,自动进行切词,切出来的词的频率、词在整个内容里面的权重都可以计算出来,然后基于个性化需求去选择你所关注的关健词。

    例如客户通过CallCenter的投诉场景:手机银行自动转帐,发现有有5000块钱的限额,导致客户当时没有转账达成自己意愿而投诉,原因是办理业务的时候柜台没有说清楚,从所有投诉场景里面我们可以发现用户关注的几类问题,服务问题还是产品问题?为后期服务提升和产品创新提供重要的决策。

    再比如在线上手机卖场用户购买的评价,SAS可以从产品、属性、评价三级的结构对客户评论文本进行观点识别,如像素以及拍照功能好不好,这可以形成一个基于规则引擎的自动化提取。目前很多文本分析只是基于关健词做统计,SAS可以基于语义规则真正的体现情感,这个情感是正面还是负面,这里面可以做一个比较,从统计角度来讲它正面评价准确率达到96%,负面评价只能达到56%,经过文本语义分析技术可以使负面评价准确率已经提升到89.41%。

    第三SAS文本分析应用案例

    下面我举一些案例,例如某制造业VOC分析,为了解决其业务痛点。它通过文本机器学习的方式快速识别客户对产品的关注点及与竞争对手区别,从而提升了原有手工方式的效率。

    首先,基于这些类别我们可以看到总体上线上客户对我这个品牌手机的评价情感,从它的价格,从它的电池和性能都可以自动化的形成汇总数据。其次,可以做竞品分析,我某一个型号的手机跟竞争对手那个型号属于相似度较高的产品,SAS可以自动计算其相似度,并识别是否同一类。

    再举一个保险案例,如何通过呼叫中心的数据发现客户投诉所反映的保险服务流程、保险产品或营收人员相关的问题,SAS可以快速定位,基于文本可以进行分类,每一类里面有不同的关健词,通过关健词反映每一类里面的主题,比如说保费缴费问题,每一个主题下面可以形成链接图,可以通过链接图还原主题下的业务场景,比如客户由于地址变更导致客户没有及时的续保等问题。呼叫中心人员接通客户电话后将客户反陈述内容归类到投诉或者是咨询,并进一步到其二级或者三级分类。原来是基于我们的经验来分的,实际上真正基于客户投诉和咨询的信息从客户口中得到的答案,证明之前的分类体系并不是最好的。首先可以为客户在这个企业的整体品牌和相应的产品服务上更准确的找到我们的主要痛点。其次也可以找到一些关健词,基于这些关健词在后期的服务或者是产品设计中,包括业务流程方面,哪些方面需要优化和提升来实现客户满意度的提升。最后我们也可以通过文本的方法建立一个整体的CallCenter知识库体系。我的分享到此结束,谢谢!

 


[上一篇] 大数据用户画像在金融行业实践

[下一篇] 赵刚:区块链技术带来的产业创新机遇与应用