相关推荐
利用Python对淘宝用户行为进行分析
2024-11-10 18:07

该项目的数据集来源于天池,是由阿里巴巴提供的一个淘宝用户行为数据集,其中包含了2017年11月25日至2017年12月3日之间,一百万个随机用户的所有用户行为(行为包括点击、购买、加购、收藏)数据,有关每个字段的介绍如下所示image

利用Python对淘宝用户行为进行分析

其中,用户行为类型共有四种,具体的说明见下表image

–分析思路:从what、why和how这三个角度对用户行为进行分析,即什么是用户行为分析?为什么进行用户行为分析?如何进行用户行为分析?而其中的why作为我们的重点解释对象。 –分析目的:通过对淘宝用户的点击、加购、收藏、购买行为进行深入研究,让企业或者店铺更好地了解用户行为习惯,为网络营销提供指导意义,也为取得新成绩打下坚实的基础。

2.1 what 什么是用户行为分析

用户行为分析,可以看做是分析用户行为,而用户行为包括5w2h,即时间、地点、人物、起因、经过、结果和金钱,也就是说分析用户行为则是分析这7个要素产生的数据,基于这些数据进行统计、分析,从中发现用户使用产品的规律,并将这些规律与产品、渠道、价格和促销等相结合,从而发现当前所存在的问题,并为后续进一步改进和优化提供依据,这将有助于企业提高平台转化率,进而提升企业的收益。

2.2 why 为什么进行用户行为分析

从时间的维度来看,通过对用户行为路径的分析可以帮助企业发现:用户从哪里来?用户做了什么操作?用户从哪里流失的?用户为什么流失? 从空间的维度来看,根据用户的行为特征构建用户画像,进而实现精准营销和提升用户体验,达到提升企业盈利的目的。

2.3 how 如何进行用户行为分析?

此环节正是我们这次项目的重中之重,我们主要通过以下三种模型进行用户行为分析image

3.1 读取数据

数据总容量为1亿多,我这里选择了500万来进行分析.

 

3.2 查看数据信息

 

<class ‘pandas.core.frame.Dataframe’> RangeIndex: 5000000 entries, 0 to 4999999 Data columns (total 5 columns): 用户ID int64 商品ID int64 商品类目ID int64 行为类型 object 时间戳 int64 dtypes: int64(4), object(1) memory usage: 190.7+ MB 数据维度500万×5,1个字符串类型和4个64位整型数据,500万数据大小190.7MB

3.3 描述性统计

 

image

由于该数据集中会出现一个用户ID多次浏览的情况,因此这里“用户ID”的count数和max值不代表用户数量,“商品ID“和“商品类目ID“类似 image

用户行为类型分为4种,其中浏览量pv最多,达到4475232次

4.1 重复值处理

对于重复值,直接采用删除的方式处理。

 

4.2 缺失值处理

在处理缺失值之前,先查看有多少缺失值

 

用户ID 0 商品ID 0 商品类目ID 0 行为类型 0 时间戳 0 dtype: int64 可以看到没有缺失值,因此也就不用处理了

4.3 异常值处理

根据数据介绍,可知道数据的日期包含在2017年11月25日至2017年12月3日之间,因此可根据这条规则对数据进行异常处理

 

4.4 数据清洗

将时间戳转换为datetime格式

 

提取出日期和时间

 

截止目前,我们的数据预处理工作就完成了,可查看处理结果

 

image

5.1 获取用户

1.日pv、日人均pv和日uv

 

image

–日pv和日uv两者走势相类似,也进一步说明日人均pv波动较平缓,其平均水平为13.34; –日pv和日uv均呈现上升趋势,且均在12月2日突然升高至九日内最高水平,而12月2日是周六,但11月25日也是周六,因此可能不是周末的原因,又由于12月2日距离双十一较近且多数人会在双十一购买近期所需物品,因此初步推测12月2日~3日的突然升高是因为商家进行促销、宣传推广等活动。

2.日新增uv和日新增uv的pv

 

image

日新增uv和日新增uv的pv均呈现明显下降趋势,且在12月2日新增uv的人均pv为627/62=10.11(低于日人均pv的平均水平,说明日pv的突然升高不是由12月2日当日新增的uv带来的,而是由老uv带来的,另外,12月2日新增uv为62人,环比增长-0.44,从侧面反映了此次活动的目的可能不是拉新。

5.2 提高活跃度

1.时活跃用户数

 

image

19时~22时为用户活跃高峰期, 而2时~5时则为用户活跃低峰期,可在用户活跃高峰期加大活动宣传力度。

2.日活跃用户数

 

image

日活跃用户数呈现明显的增长趋势,且在12月2日取得最大值,说明此次活动的目的可能是促活。

5.3 提高留存率

 

image

–就时间窗口来说,次日留存和3日留存均表现出先减后增的趋势,而7日留存则相比之前略有减少; –就某一天来说,11月25日新增的活跃用户3日留存<次日留存<7日留存,11月26日新增的活跃用户次日留存<3日留存<7日留存,且其他日期3日留存均大于次日留存。 总体来说,留存呈现增长的趋势,反映出用户粘性在上升。

5.4 获取营收

1.时购买行为

 

image

购买人数和购买率的走势大致相似,且均呈现明显的双峰走势,其中21时购买人数最多,而10时购买率最高,应当继续保持10时的活动,加大21时的活动力度。

2.日购买行为

 

image

在12月1日之前,购买人数和购买率走势相类似,而在12月1日之后购买人数有所增加,但与之前相比购买率却在减少,商家应当优化产品本身并加大宣传推广。

3.九日复购率

 

0.6323078771856036 如果以0.6作为合格标准的话,说明用户忠诚度表现一般,有大幅增长空间。

4.三日复购率和回购率

 

image

–用户回购率整体高于复购率,其波动性也明显强于复购率; –用户复购率呈现先减后增的趋势,而用户回购率则是增加趋势 , 即第二周期购买用户的忠诚度较第一期高,整体说明用户忠诚度在增加。

 

image

–总的点击量中,有6.25%加入购物车,有3.24%收藏,而到最后只有2.24%购买,整体来看,购买的转化率最低,有很大的增长空间; –就颜色来看,红色部分的变化最大,即“点击-加入购物车“这一环节的转化率最低,按照“点击-加入购物车-收藏-购买”这一用户行为路径,我们可通过优化“点击-加入购物车”这一环节进而提升购买的转化率。

R:Recency(最近一次消费,F:Frequency(消费频次,M:Monetary(消费金额) 由于我们的数据集中没有消费金额相关数据,因此这里就R和F对客户价值进行分析


    以上就是本篇文章【利用Python对淘宝用户行为进行分析】的全部内容了,欢迎阅览 ! 文章地址:http://zleialh.xhstdz.com/quote/63716.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://zleialh.xhstdz.com/mobile/ , 查看更多   
发表评论
0评