推广 热搜: 行业  机械  设备    教师  经纪  系统  参数    蒸汽 

【Spark】Spark电商数据分析

   日期:2024-11-10     移动:http://zleialh.xhstdz.com/mobile/quote/62107.html

【Spark】Spark电商数据分析

在这里插入图片描述 上面的数据图是从数据文件中截取的一部分内容,表示为电商网站的用户行为数据,主要包含用户的 4 种行为:搜索,点击,下单,支付。数据规则如下:

  • ➢ 数据文件中每行数据采用下划线分隔数据
  • ➢ 每一行数据表示用户的一次行为,这个行为只能是 4 种行为的一种
  • ➢ 如果搜索关键字为 null,表示数据不是搜索数据
  • ➢ 如果点击的品类 ID 和产品 ID 为-1,表示数据不是点击数据
  • ➢ 针对于下单行为,一次可以下单多个商品,所以品类 ID 和产品 ID 可以是多个,id 之间采用逗号分隔,如果本次不是下单行为,则数据采用 null 表示
  • ➢ 支付行为和下单行为类似

字段说明 在这里插入图片描述

跳转顶部


品类是指产品的分类,大型电商网站品类分多级,咱们的项目中品类只有一级,不同的公司可能对热门的定义不一样。我们按照每个品类的点击、下单、支付的量来统计热门品类。

本项目需求优化为:先按照点击数排名,靠前的就排名高;如果点击数相同,再比较下单数;下单数再相同,就比较支付数。

跳转顶部


我们先创建出和读取数据文件,只适用于方法一到三

 

我们可以先分别求出点击量、订单量和支付量的总数,然后将三个数据合并,最后排序

在这里插入图片描述

 

结果展示,由于后面只是方法不同,结果都是一样的,所以结果只展示一次 在这里插入图片描述

跳转顶部


在方法一中,我们虽然实现了需求,但是因为使用了,就会导致数据处理量的暴增,那我们也没有办法不使用而完成?

解题思路 在这里插入图片描述

本文地址:http://zleialh.xhstdz.com/quote/62107.html    物流园资讯网 http://zleialh.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号