分享好友 最新资讯首页 最新资讯分类 切换频道
毕业设计 基于大数据的K-means广告效果分析
2024-12-13 05:42

项目运行效果

🧿 项目分享:见文末!

在大数据时代的背景下,广告主可以购买媒介变成直接购买用户,广告的精准投放对广告主、服务平台与潜在用户而言,在提升效率与商业效益方面,有了更迫切的需求,然而网络广告形式多样,很多广告投放系统相对缺乏针对性,使得网络广告精准度不够高,因此,对推广数据的研究是十分必要的。所有本次项目将从用户特征,投放时间,投放位置以及高点击率广告的特征等方面多维度进行数据分析,以提高用户点击率,实现淘宝展示广告精准投放,实现广告投放效果最大。

注意:本文是博主自主探索数据分析的记录和总结,有些方法和结论会存在错误,希望对你学习有帮助的话我很高兴,但是有问题的话希望给小弟批评和指正。

本文使用的数据工具为mysql 和 tableau

数据来源阿里天池,数据集

数据名称说明属性raw_sample原始样本骨架用户id,广告id,时间,资源位,是否点击ad_feature广告的基本信息广告id,广告计划id,类目id,品牌iduser_profile用户的基本信息用户id,年龄层,性别等raw_behavior用户的行为日志用户id,行为类型,时间,商品类目id,品牌id
  1. 原数据集太大,为了方便分析,在raw_sample数据集中截取300w条数据
  2. 数据缺失值处理,如果出现缺失,将缺失的行删除即可(简单方法


select count(user_id),count(adgroup_id),count(time_stamp),count(pid),count(noclk),count(clk)
from raw_sample;

在 user_profile 数据中 pvalue_level 字段缺失率高达53.1%,这里可以使用knn算法进行预测填充
(我比较菜,先直接忽略,后续学习python之后进行补充,而 new_user_class_level 字段的缺失率也有27.4%,可以使用众数进行补充。

  1. 数据重复值处理


select user_id, adgroup_id, time_stamp, pid, noclk, clk
from raw_sample
group by user_id, adgroup_id, time_stamp, pid, nonclk, clk
having count(user_id) >1;

  1. 数据异常值,比如有无超出时间范围
  2. 时间处理,将时间戳分解为日期和时间


alter table raw_sample add time_date varchar(20);
alter table raw_sample add time_hour varchar(20);
update raw_sample set time_date = left(from_unixtime(time_stamp),10);
update raw_sample set time_hour = right(from_unixtime(time_stamp),8);


select pid ‘资源位’,
(select COUNT() from raw_sample) ‘展示量’,
sum(clk) ‘点击量’,
sum(clk) / (select COUNT(
) from raw_sample) ‘点击率’
from raw_sample
group by pid;

2.1 24h的投放效果


select left(time_hour,2) ‘小时’,
COUNT() ‘展示量’,
sum(clk) ‘点击量’,
sum(clk) / COUNT(
) ‘点击率’
from raw_sample
group by left(time_hour,2)
order by left(time_hour,2) ;

  1. 点击量基本符合人们的作息规律,而点击率在9-10点、13-14点和20-21点都比较高,这些时间基本就是人们工作前、中
  2. 奇怪的是在半夜1点和3点的时候点击率居然比较高,问题可能是展现量较低但点击量高,夜猫子刷淘宝的时候不容易被其他事情分散注意力,我觉得可以探索一下哪个品类的东西深得夜猫子浏览和点击,适当的进行实验性营销。

2.2 一周(8天)的投放效果


select right(time_date,2) ‘日期’,
COUNT() ‘展示量’,
sum(clk) ‘点击量’,
sum(clk) / COUNT(
) ‘点击率’
from raw_sample
group by right(time_date,2)
order by right(time_date,2) ;

结论:2017年5月6号是星期六,周末的展现量较高比较符合作息规律,周二的点击率比较高,但是周末点击率为什么比较低?因为展现量高?周五的点击率最低,是什么原因造成,这些可能需要具体分析,可以进行与其他日期进行对比分析,对比不同日期24小时效果分析。

3.1 用户性别分析


select if(final_gender_code = 1, ‘男’,‘女’) ‘性别’,
sum(clk) ‘点击量’,
sum(clk) / (select COUNT(*) from raw_sample) ‘点击率’
from raw_sample,user_profile
where raw_sample.user_id = user_profile.userid
group by final_gender_code

3.2 用户消费档次分析


select case when pvalue_level =1 then ‘1’
when pvalue_level =2 then ‘2’
when pvalue_level =3 then ‘3’
end ‘消费档次’,
sum(clk) ‘点击量’,
sum(clk) / (select COUNT(*) from raw_sample) ‘点击率’
from raw_sample,user_profile
where raw_sample.user_id = user_profile.userid and
pvalue_level is not null – 缺失值未处理,直接排除
group by pvalue_level
order by pvalue_level;

3.3 用户购物深度分析


select case when shopping_level =1 then ‘浅层’
when shopping_level =2 then ‘中层’
when shopping_level =3 then ‘深层’
end ‘购物深度’,
sum(clk) ‘点击量’,
sum(clk) / (select COUNT(*) from raw_sample) ‘点击率’
from raw_sample,user_profile
where raw_sample.user_id = user_profile.userid
group by shopping_level
order by shopping_level;

3.4 用户人群分析


select case when occupation =1 then ‘大学生’
when occupation =0 then ‘非大学生’
end ‘用户人群’,
sum(clk) ‘点击量’,
sum(clk) / (select COUNT(*) from raw_sample) ‘点击率’
from raw_sample,user_profile
where raw_sample.user_id = user_profile.userid
group by occupation;

3.5 用户年龄分析


select age_level ‘年龄层次’,
sum(clk) ‘点击量’,
sum(clk) / (select COUNT(*) from raw_sample) ‘点击率’
from raw_sample,user_profile
where raw_sample.user_id = user_profile.userid
group by age_level;

3.6 用户城市层次分析


select new_class_level ‘城市层次’,
sum(clk) ‘点击量’,
sum(clk) / (select COUNT(*) from raw_sample) ‘点击率’
from raw_sample,user_profile
where raw_sample.user_id = user_profile.userid
group by new_class_level;


select btag,count(btag)
from behavior_log
group by btag
order by count(btag);

  1. 渠道:4300548_1007资源位的广告投放效果会更好
  2. 时间:在9-10点、13-14点和20-21点的时候点击率会更高,周二的点击率更高
  3. 用户:女性、中档消费、深度购物、非大学生、年龄3档、城市层级2层的用户投放效果会更好。

本文只分析了全体的投放效果,正常需要结合品牌、商品类目和价格等进行分析,也可以结合转化率一起分析。

项目运行效果

最新文章
【系统架构设计】计算机网络
OSI/RM 结构模型 1977年,国际标准化组织为适应网络标准化发展的需求,制定了开放系统互联参考模型(Open System Interconnectio
全世界规模最大战争排名,第一名居然是清朝时期!
自打人类走上进化这条路,就想着法儿想要证明【一伙人就该被另一伙人支配】。古罗马角斗士时代一方有多大势力,就看他有多少人的
python tk随机内容生成器
MyRandom ran=new MyRandom();System.out.println(ran.nextString(1));System.out.println(ran.nextString(50, OnlyNum));System
ai自动写文章在线 在线写文章自动生成器
身为文案工作者,我深感写作之重要且充满挑战。如今,随着人工智能(AI)写作平台的出现,我的写作历程出现了巨大变革。在此,很
AI写系统性综述ChatGPT还远远不够未来百年能否实现
在科学研究的浩瀚海洋中,科研人员时常面临一个棘手的问题:如何有效整合和理解海量的科学文献。尽管网络的普及极大地丰富了文献
全球AI半导体技术排名:韩国强势第三,未来发展值得关注
近年来,人工智能(AI)技术的迅猛发展促进了相关硬件的创新,尤其是AI半导体的需求日益上升。根据最新的研究报告和韩国媒体的报
MVSO影视程序源码 影视自动采集_魔改超强SEO_自定义苹果cms资源站接口
?php// +----------------------------------------------------------------------// | ThinkPHP [ WE CAN DO IT JUST THINK ]/
多地楼市政策不断优化 房地产市场企稳态势渐明
原标题:多地楼市政策不断优化 房地产市场企稳态势渐明来源:人民网近日,海南省住房公积金管理局发布《关于调整优化住房公积金
新澳正版资料免费大全,词语作答释义解释汇总
随着互联网的普及和在线信息资源的丰富,人们对于各类资料的需求日益增长,在新时代,获取正版资料显得尤为重要,本文将介绍新澳
揭秘快速排名SEO软件,网站高效提升排名的秘密武器
快速排名SEO软件,是网站提升排名的得力助手。它通过优化关键词、内容布局和链接策略,帮助网站在搜索引擎中迅速提升排名,实现