用户画像从应用形式到堆建实战

愿每个人都是可以丑小鸭变白天鹅

一、用户画像是什么？

用户画像是指参照用户的基本属性、用户偏好、生活习惯、用户行为等信息而抽象概念出的标签化用户模型。每一个标签及标签权重即为用户的一个向量，一个用户这个可以解释为超维空间的多个向量（标签）的和。即通过数据方式来详细解释用户，到了最后将一个用户表达为计算机可能识别的用户，得以为基础实现程序用户画像应用。

二、用户画像应用

当一个用户可以不被计算机各个识别再理解后，我们就这个可以利用做精准营销、个性化推荐等基本性工作，其作用总体除了：

精准营销：参照用户特征，因为某种特定群体，借用短信、邮件、AppPush、App弹窗、微信公众号、微信群等方式接受营销。用户做统计：依据什么用户的属性、行为特征对用户接受分类后，统计有所不同特征下的用户数量、分布；讲完全不同用户画像群体的分布特征。个性推荐：以用户画像为基础最终形成推荐系统、搜索引擎、广告投放系统，提升转化率。产业分析：是从用户画像分析这个可以清楚行业动态，诸如人群消费习惯、消费偏好总结、相同地域品类消费差异总结。三、用户画像如何能提供给不超过能力

用户画像有以内应用，到底是怎摸应用的呢？我们一个一个请解释一遍。

1.精准营销

依据什么用户特征，针对某一特定群体，凭借短信、邮件、AppPush、App弹窗、微信群、h5等方式并且营销。如果没有用户画像，也能能够完成短信、邮件、Apppush、App弹窗的运营，但是又不能只要资源有效利用。

为什么？在平台用户量低的时候，我们非常容易做运营，我们将运营内容全量推送，发现到召回率、转化率并肯定不会比较高。这是是因为初期我们的用户都很精准，所以我召回率转化率绝对不会很低。但与此同时用户基数的慢慢的增加，这种运营效果越来越差转化率更加低。

而且紧接着用户量的增加，推送的内容不能打动他的心那一小撮人，为了提升被转化效率，运营管理位资源的最有效利用，我们要动用用户画像的能力。

（1）分群运营

分群运营是此问题挺好的解决方案，实际用户画像的标签再次筛选，筛选后出不同的用户群，筛选后出的用户群每个用户群都是一个真正id。通过push或弹窗配置平台，然后输入用户群id实现程序精细化运营。

（2）自动化运营

我们让用户群的粒度无穷大，后来会小到一个个体。我们因为每个个体去做push或是弹屏，运营效率我还是太低了。设计和实现用户画像的自动化运营就发挥了作用。我们互相查查如何能实现方法自动化运营。

粗略地代培生（城市：北京；属性：新用户）此类设置为柯西-黎曼方程业务需求，比如暑假低价课的广告弹屏只根据是没有购买过会导致班的用户。这是方式事实标签来实现。精致细腻定向：可以设置偏好标签及标签值来可以确定非常精细用户群。原理很简单点，给一个策略设定好偏好标签及标签权重后，普通在空间中绘制的出一个用户向量，我们用神秘用户向量与此向量进行空间向量的余弦相象计算出，或欧几里得距离换算相似性，最相似的则不优先显示。要是完全相同有几分相似则按创建时间倒叙展示。这样的话设置权重好处：也可以挺好的的尽量减少相同业务部门App内流量的你争我夺。只有一系统设置的标签才组织换算，并非全部标签接受相似可以计算。设置push文案push广告素材设定结束结束后机制（时间控件）

举个例子：

背景：

暑期都结束了场景下的收心课；对于是没有报名暑假会导致班的学员；目标100w。

配置：

设置人群；也没网上购买2019暑期会导致班的学员；可以设置权重：数学：0.8，短期班：0.7，暑假：0.6，开学后：0.5；设置文案：亲爱的斑马家长你好，暑假祝生活，学而思网校为您打算9.9元10节暑假数学收心课；可以设置广告素材：http://**.ban**.com；时间设置：2019/08/23-2019/08/24。

图示：

2.用户统计数据

据用户的属性、行为特征对用户并且分类后，统计不同特征下的用户数量、分布、走势等。

这里不做多论述，参考神策。截图大家建议参考下，数据已脱敏疗法。

北京的-能完成加购物车能操作的用户数的趋势

3.用户分成

4.个性推荐

个性我推荐：以用户画像为基础构建体系推荐系统、搜索引擎、广告投放系统，提升转化率。

这里应该可以介绍下推荐模型，其他与我推荐逻辑我不是很清楚。

推荐系统一般都分成三类招回和排列两个阶段。是因为全量物品（Item）常见数量非常大，无法为一个用户（User）无一遗漏计算每一个物品（Item）的评分，这时候就要一个处置阶段，当然那是预做筛选一部分物品（Item），进而减少可以计算量。

上万本Item——招回（粗排）——候选**——排序（精排）——排序列表——规则（多元化我推荐）——我推荐结果。用户画像之外主要是用于到了最后自动分配评分，还要应用于在招回。

那用户画像是怎么做招回？

我们先看看用户画像的用户偏好表存储（用户画像有好多个表，文章画像构建部分会具体看解说）：

当我们购买结束一个中有标签id1，标签id2，标签id3的课程后，就像在去购买能够完成页会有连在一起销售场景，我们通过用户偏好表的标签及权重，实现用户相象，或Item相象的协同过滤算法，招回一部分课程。这是粗排的过程。简单的理解就是可以找到用户不喜欢的其他课程。

协同过滤：设计和实现用户相似推荐：

欧几里得距离公式

userid1与userid2=√[（标签id1-标签id1）^2+（标签id2-标签id2）^2+···（标签idn-标签idn）^2]

5.行业研究

行业调研就挺好的明白了，我们每天都听得马爸爸拿一些标签，那说明这个地方人喜欢买什么？为啥比较喜欢买？那个地方人就是喜欢买什么？为么比较喜欢？

最比较经典的应该是每年的年终总结H5，这里不太多一一列举此内容。

四、用户画像的搭建中1.标签管理系统搭建中

（1）什么是标签管理系统？

标签与用户画像的关系，在介绍什么是用户画像时候就早就提过。

我们说再看看什么是标签管理系统：

一般来说，将能关联到具体一点用户数据的标签，称做叶子标签。对叶子标签进行分类汇总的标签，称做父标签。父标签和叶子标签共同组成标签体系，但两者是要比概念。

用户画像的本质就是可以使用有所不同的标签来具体解释思想感情用户，那这些标签是不需要我们事前准备好好的。每个用户也有成千上万的标签，我们魔兽维护这么大量级的标签，我们当初要先形成完整和健康的标签体系。

因此标签管理系统要支持什么对所有标签查询、修改、彻底删除、新增加等功能，要注意除开两个模块：标签树和标签去查询。

标签树：以树形结构完全呈现标签之间的层级和逻辑关系，另外是可以对不可以层级的标签名进行直接修改、2020年规划和删出；标签网站查询：对某一时间段内的标签通过查询，可以不实现程序可以自定义去查询及条件查询，并实现程序标签下的用户数的统计功能。

（2）标签管理系统功能列表

（3）标签管理系统页面

（4）标签体系构建

1）偏好标签

偏好标签简单啊理解那是用户对相同标签的喜爱程度，方式用户与标签的行为类型、行为权重、行为次数、时间衰减作用来计算出。强盗团具体详细解说如何能接受计算出，偏好标签是做推荐及策略方向最重要的标签。

2）标签梳理

该类标签梳理很简单的，在我们数据仓库中有相同的内容表。

诸如课程数据库表结构：上课地点、上课时间、老师、价格、大纲、评价……

比如教师表结构：教师名称、有无教师资格证、年龄、学校、性别、评价……

这里每一个字段那是一个偏好标签，当然字段值又是标签。毕竟用户与这些内容**，借用是与这些标签放生关系。

偏好标签是固定设置的，绝不可以编辑修改，数据来源于平台内全部内容的表字段及值。

3）事实标签

信息标签：用户的基本信息标签（城市、年级、年龄、性别……）业务标签：不知从何而来业务的标签（在读、非在读、长期班、中短期班、语文、数学、英语……）规则标签：可以自定义的规则（低潜、中潜、高潜、核心）

4）标签梳理

用户基本信息，用户业务信息，工作人员定的规则，比如：低潜用户，中潜用户……

5）预测标签

这种标签是参照机器学习预测的标签，例如：耗损预测国家，丹东客运站预估，能量转化分析预测等等。

6）标签梳理

很简单啊，就这样十几个想预测国家啥就再添加啥。标签之间具高层级的逻辑关系，1级是2级标签的父级，2级是1级标签的子级，以此类推。

偏好标签决不可编辑，数据来源于差别内容的表字段。事实标签与预测标签当子级有内容则父级决不可删除掉，但可编辑。仅有下级没有任何子级的情况下这个可以进行删掉你操作。

2.标签权重可以计算

这里的标签权重可以计算指代偏好标签。

画像的用户偏好标签存储结构：

这里的每一个用户每一个标签下的值那就是标签的权重，这节讲解的重点。

这个标签权重引响着对用户属性的按性质分类，属性知识分类不确切，这一次给予画像对用户并且帮我推荐，精细化运营也就无从查起谈起。

（1）基于组件TF-IDF算法计算

1）算法思想

用户标签权重，是由该标签对用户本身的重要性与该标签在业务上，对用户的重要性约定做出决定的。

标签本身对用户重要性是方式TF-IDF换算换取的，业务权重是实际用户对标签的行为来确定的，即：

用户标签权重=业务权重*TF-IDF权重用户标签权重=行为类型权重*行为次数*时间能量损失*TF-IDF权重

2）简单的理解

是用户对一个标签，会有差别行为高效触达，完全不同的行为有完全不同的难度，比如：定购行为大于0搜索行为，搜索行为大于0网页行为。所以我相同行为是会有相同的权重，行为越难属於越比较喜欢，权重越高同理可得行为次数一定也代表越不喜欢。

标签对这个用户来说越低几率贞洁戒越不喜欢，很喜欢程度会与此同时时间的增加而渐渐减少，实际这个公式计算标签权重。

3）行为类型权重

用户打开浏览器、再点、搜索、收藏、分享、下单付款、去购买等相同行为对用户不过有差别重要性，一般使用主成分分析法定义一个基本行为权重。

4）行为次数

这里的行为次数它表示每一种行为的次数。

5）时间衰减作用

时间衰减是指用户的行为会随着时间的流逝，用户偏好会断的减弱。在组建与时间脉冲前沿相关的函数时，我们可套用牛顿冷却定律数学模型。

牛顿冷却定律：

较热物体的温度F(t)是与此同时时间t的增长而显现出指数型能量损失，其温度衰减公式为：F(t)=T×exp(-α×t)。

T：数码宝贝传说温度α：衰减时间常数即加热系数，是自己定义方法的数值，一般是从回归可算出得出来t：时间间隔

冷却系数怎么计算出呢？

冷却系数是自己定义,定义的数值，就像通过回归可计算得出的结论。例如：初始温度100摄氏度，1小时后的温度为85摄氏度，即85=100×exp(-α×1)，易求α=0.16。

在这里我们用R语言来模拟看看这个冷却曲线

wendu<-100*exp(-0.16*t)t<-c(1:100)plot(x)

6）TF-IDFTF-IDF = TF*IDFTF：

这里我们用N（P，T）可以表示一个标签T被主要用于标签用户P的次数。

TF（P，T）意思是这个红色标记次数在用户P所有标签标记次数中所占的比例。

TF（P，T）=N（P，T）/ΣN（P，Ti）

N（P，T）：打在某用户身上某个标签的个数

ΣN（P，Ti）：该用户身上所有的标签的个数

Ti该用户全部标签个数

IDF：

IDF（P，T）：可以表示标签T在全部标签中的极度稀缺程度

假如一个标签又出现的几率很小，而被用户标记某个用户，这就让该用户与该标签T之间的关系更加紧密。

IDF（P，T）=ΣΣN（Pi，Ti）/ΣN（Pi，T）

ΣΣN（Pi，Ti）：全部用户的全部标签之和

ΣN（Pi，T）：所有打T标签的用户之和

7）计算方式

举例子：

用户“斑马”，对此标签“语文”的标签权重可以计算：题中我们之后定义冷却系数α=0.16。

行为表：

2019-08-22

2019-08-23

2019-08-24

用户“斑马”对标签“语文”的权重：

2019-08-22：语文=2*0.1+2*0.2+3*0.6+1*0.5+1*0.9=3.8

2010-08-23：语文=3.8*exp（-α*1）+1*0.1+1*0.2+2*0.6+1*0.5+0=5.067718

2010-08-23：语文=5.067718*exp（-α*1）=4.318424

3.标签存储

（1）事实标签

1）基础信息表

2）事实标签-在读信息表

3）事实标签-报名信息表

4）事实标签-规则信息表

（2）偏好标签&预测国家标签

本文由斑马原创首页于产品壹佰平台，未经授权，私自转载和商用。

（2）偏好标签&预测标签

本文由斑马原创发布于产品壹佰平台，未经许可，禁止转载和商用。

上一篇：用户画像建... 下一篇：要要怎莫摧...