新浪微博的用户画像是怎样构建的?_客户管理网_中国客户管理研究院打造的客户价值管理与数字营销门户

新浪微博的用户画像是怎样构建的?

来源：大数据人
时间：2017-05-10
分类：热点资讯大数据大数据

1.概述

属性和兴趣维度的用户模型都可以归入用户画像(UserProfile)的范畴。而所谓用户画像，简单来说就是对用户的信息进行标签化。如图1所示。一方面，标签化是对用户信息进行结构化，方便计算机的识别和处理；另一方面，标签本身也具有准确性和非二义性，也有利于人工的整理、分析和统计。

用户属性指相对静态和稳定的人口属性

例如：性别、年龄区间、地域、受教育程度、学校、公司……这些信息的收集和建立主要依靠产品本身的引导、调查、第三方提供等。微博本身就有比较完整的用户注册引导、用户信息完善任务、认证用户审核、以及大量的合作对象等，在收集和清洗用户属性的过程中，需要注意的主要是标签的规范化以及不同来源信息的交叉验证。

用户兴趣则是更加动态和易变化的特征

首先兴趣受到人群、环境、热点事件、行业……等方面的影响，一旦这些因素发生变化，用户的兴趣容易产生迁移；其次，用户的行为（特指在互联网上的行为）多样且碎片化，不同行为反映出来的兴趣差异较大。接下来主要介绍一下微博画像中兴趣维度的构建方法。

2.微博用户兴趣分析

1标签来源

用户自标签、达人或认证标签、公司、学校、微群标签、星座、微博关键词……这些来源都可能成为用户的标签。而针对每个特定的用户收集标签除了其自身以外，他关注用户的标签也会传递到该用户身上。如图2所示（蓝色实线代表关注关系，橙色虚线代表兴趣标签来源）。

2权重计算

在收集到一个用户可能存在的标签后，还需要给标签赋一定的权重，用来区分不同标签对于该用户的重要程度。不同标签的来源用户质量，标签的传递路径，转发关系，标签的本身，以及标签与用户之间的共现关系都会考虑在内。

不同质量的用户自身产生的标签权重不一样，质量越高，认为该标签的可信度越高，无论是将该标签赋给自己还是传递出去的时候其权重值越高。

标签的传递路径主要是针对基于关注关系的标签传递，亲密度比较高的关注用户传递过来的标签权重值会比较高。

标签是来自于用户的原创还是其转发的微博，权重值会有区别，一般来说原创的权重会高于转发权重。

如果标签本身是一个非常常见的词，那么它用于刻画用户的兴趣的区分性是比较差的，相反如果是一个长尾词，则区分性较强。出于这样的考虑，越是长尾词，标签的权重值会越高。

标签与用户的共现关系是指用户和该标签是否经常共同出现，评价的是两者的关联性。关联性越高，则标签的权重值越高。

综合上述的因素，一个标签对于特定用户的权重值可以大致表示为：标签权重=(来源因子+亲密度因子+转发因子+长尾因子)×共现因子。

3时效性

随着时间的变化，用户的兴趣会发生转移，时间越久远，标签的权重应该相应的下降，距离当前时间越近的兴趣标签应该得到适当突出。出于这样的考虑，一般会在标签权重值上叠加一个时间衰减函数，这个时间衰减函数被设计成如图3所示的指数衰减的形式，通过定义衰减幅度和半衰期，调节衰减的程度，体现不同的时效性。

此外，针对用户的兴趣，还会设定一个较小的时间窗口来获取用户的短期兴趣。通过用户在短时间内的原创、转发和关注行为收集兴趣标签，并计算标签的权重。短期兴趣更新周期会较长期兴趣更短，兴趣更集中，但是能够比较及时地反应用户兴趣的变化。

4从兴趣到能力

然而，用户具有某方面的兴趣，只代表了他愿意接受这方面的信息，并不能代表他具有产生相关内容的能力。因此，在挖掘了用户兴趣标签的基础上，还需要发掘哪些用户能够针对特定的标签具有一定的内容生产能力。

微博中的关注关系可以认为是一种认证，具有相同兴趣的用户之间的关注则有可能是兴趣相投（当然也可能不是，但毕竟有一定的指导性），那么将具有相同兴趣标签的用户提出来，通过关注关系构成一个图，被认证得最多的用户（被关注边指向得最多）被认为在这个兴趣标签上具有最强能力。如图4所示中的带红色边框的用户。

[上一篇] 百分点技术总监郭志金谈用户画像数据建模方法

[下一篇] 大数据用户画像在金融行业实践

新浪微博的用户画像是怎样构建的?

最新活动

中国客户管理品牌展示

推荐文章

专题
Topic

频道
Channel

产业
Industries

参与
Participation

合作
Cooperation

关于我们
About

新浪微博的用户画像是怎样构建的?

最新活动

中国客户管理品牌展示

推荐文章

专题Topic

频道Channel

产业Industries

参与Participation

合作Cooperation

关于我们About

专题
Topic

频道
Channel

产业
Industries

参与
Participation

合作
Cooperation

关于我们
About