用户画像技术及应用

作者:马占宇来源:蝌蚪五线谱发布时间:2018-02-28

北京青年优秀科技论文一等奖相关科普文章。

一、 背景

随着互联网上用户访问数量的迅速增长,用户创建和访问的信息数量呈指数级递增;因此,众多互联网企业一方面希望能在用户使用产品的过程中,利用多维度多渠道的用户行为数据采集方式记录用户尽可能多的数据;另一方面,针对如此规模的用户大数据,企业也很难对用户的数据进行准确的分析,从而导致无法有效的将最优的服务投放到最合适的用户人群手中。近年来兴起的用户画像技术正是为了解决这一难题而成为当前用户行为分析的热点技术。

二、 什么是用户画像?

用户画像技术是真实用户的虚拟代表,是建立在一系列现实世界中真实用户数据之上的数模型:对用户的社会属性、个人爱好、生活习惯和消费行为等数据进行采集和积累,并在明确的业务应用场景下,根据提前设定好的算法对符合业务需求的特定用户的消费目标、行为习惯和观点等方面进行画像和分析,将用户多种类型的数据抽象成一个标签化的用户模型,以挖掘深层次的、能触及用户需求的信息。用户画像技术的核心工作就是给用户打“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。接下来,我们就可以利用这些用户的特征标识,将用户区分成不同类型,然后每种类型中抽取出典型特征,赋予一个名字、一张照片、一些人口统计学要素、场景等描述,就形成了一个用户画像。

1

图1:用户画像示意图

用户画像技术的应用范围非常广泛,包括用于精准营销,通过分析潜在用户,针对特定用户群体进行广告投放,减少不必要的广告费用;或者通过分析用户数据的关联性,构建面向用户的个性化推荐系统,对服务或产品做到千人千面的定制化部署;或者进行企业经营效果评估,完善产品运营,提升服务质量,其实这也就相当于市场调研、用户调研,迅速定位服务群体,提供高水平的服务。

三、 用户画像的主流技术有哪些?

用户画像技术具有很高的理论研究与应用价值,在早期,许多研究者已从不同角度不同类型的数据中提出构建用户画像的方法。例如,收集用户使用网络搜索引擎时使用的连续搜索词,并对对词频和词语的新鲜度进行时序建模,以生成用户的具有时效性的画像;或者根据用户在社交网络上浏览、关注和分享的图片、文字、视频等内容,提取关键语义信息构建用户画像;或者利用用户的出行轨迹信息,根据用户的家庭信息、地点信息以及在不同地点的行为频率,从频繁活动、行为规律与移动速度等方面生成基于用户位置信息的用户画像表示;或者根据用户在在线商城购买商品的类型、对购买商品的评论和打分,对于用户的特征喜好生成用户画像。

目前,用户画像主流技术包括基于词袋模型、知识图谱和矩阵分解的用户画像构建技术。

基于词袋模型的用户画像技术利用词袋模型的方法表征每个用户的标签。词袋模型将从社交网络上收集到的大量文本数据看作是若干个词的集合,但是忽略文本中的词序、语法和句法信息,并对文本进行词语筛选(去除介词、形容词、副词以及网站链接等信息),提取文本中的关键语义信息,即关键词。然后将这些提取到的关键词根据其出现的概率转化为词向量的形式,并以此作为用户的表示。

2

图2:词袋模型示意图

基于知识图谱的用户画像技术利用系统采集到的大量真实用户数据,包括用户的手机APP行为数据、浏览器搜索词数据、娱乐消费数据等,构建面向用户画像的知识图谱。然后,利用知识图谱提供的实体与实体之间的语义相似性和逻辑相关性,计算生成知识图谱的所有语料(来源于新闻报道、论坛的问答、手机APP描述等)的词语与知识图谱中的实体之间的相关性,得到语义有关的知识实体。同样计算得到相关实体与已知用户行为标签语义相近的标签表,并通过组合计算得到与标签对应用户的相关性的强弱,从而生成可以表示用户特性的用户行为标签关联组合。这种用户特性的用户行为标签关联组合就是对用户的画像描述。

3

图3:知识图谱示意图

基于矩阵分解的用户画像构建技术需要将原始的用户行为数据映射到某一嵌入空间上去,来获得数据中的隐含信息。首先,我们需要根据大量真实用户数据构建用户行为矩阵(图4中的R矩阵),其中,每行表示每个用户的行为。这样,我们就可以将多种来源、多种形式的原始数据转换成矩阵来表示。然后,我们就可以分解R矩阵,来学习其中潜在的嵌入空间产生的隐含信息(图4中等号右侧)。这样,我们就可以通过嵌入空间的隐含信息作为用户画像表示。

4

图4:矩阵分解示意图

四、 用户画像的应用举例

为了支撑网络用户推荐系统,并为其推荐有相似上网兴趣的用户为朋友,根据其朋友的喜好为其推荐歌曲、电影、商品等等,需要根据用户访问兴趣分类用户。如何根据用户上网浏览行为对百万千万级别用户进行分类,是一个有挑战的难题。接下来,我们将通过一个简单的例子来解释如何根据用户访问兴趣对用户进行分类。

假设常用的门户类网站可以根据用户喜好分成8类,即电商、阅读、音乐、视频、游戏、社交、新闻和生活。我们可以根据从门户类网站中直接提取二级目录的关键字,将其归入以上的8个类别中,如搜狐视频(tv.sohu.com)属于视频类。

为了发现基于喜好的移动用户流量社区,需要根据用户浏览兴趣对用户分类。正如前文对于矩阵分解中构建用户行为矩阵的解释那样,可以以用户为矩阵的行,网站类型为矩阵的列,构建用户行为矩阵,这个矩阵内的元素值为用户访问某个网站的次数。因为每个用户在一定时间内访问的网站并不会太多,所以这个矩阵中绝大部分元素都是0元素,也就是说矩阵是稀疏的。那么,上网用户的分类问题就可以转变为对一个庞大(用户量可能超过了百万级别)且稀疏的用户行为矩阵进行聚类的问题,也就是根据已有知识对用户进行分组。为了快速处理大稀疏矩阵,需要对矩阵进行降维和分解(参见图4)。

我们可以使用基于矩阵分割的Soft Co-Clustering联合聚类算法,将将降维后的矩阵聚类成多个簇,每个簇为具有相似浏览兴趣的一群人。该方法的优点在于,相对于其它方法,该方法在可以处理海量用户和网站信息以及自行载入聚类产生的数据的基础上,将同一网站类别划分到多个浏览兴趣组中,满足实际应用需求。

5

图5:用户分类结果

最后我们得到4类典型用户以及他们使用每一类网站的频率(图5),结合其日常移动行为得到一些结论:在家工作的人喜欢使用手机音乐和视频类应用;周末外出娱乐、逛街的人不喜欢使用电子商务类手机应用;朝九晚五工作的人喜欢使用信息和社交媒体类手机应用;早睡的人很少玩手机游戏或者看手机视频,相反的,可以推断出晚睡的人很可能喜欢玩手机游戏或者看手机视频。

五、 总结

用户画像技术是多学科的结合,需要知识图谱、自然语言处理、机器学习和数据挖掘等方面的知识融合;有很多开放性问题需要学术界和产业界一起解决。我们有理由相信学术界在上述方面的突破将会极大地促进用户画像技术的发展。

(感谢获奖论文共同作者乔媛媛老师提供部分素材)

扫码加蝌蚪五线谱微信