分享好友 最新动态首页 最新动态分类 切换频道
达观数据:LTR那点事—AUC及其与线上点击率的关联详解
2024-12-27 12:03

LTR(Learning To Rank)学习排序是一种监督学习(SupervisedLearning)的排序方法,现已经广泛应用于信息索引,内容推荐,自然语言处理等多个领域。以推荐系统为例,推荐一般使用多个子策略,但哪个策略更好?每个策略选出多少候选集?每个候选集呈现的顺序如何排序?这些问题只能根据经验进行选择,随着策略越来越多,上述问题对推荐效果的影响会越来越大。于是乎,人们很自然的想到了用机器学习(Machine Learning)了解决上述问题,至此LTR就出世和大家见面了。发展到现在,LTR已经形成较为成熟的理论基础,并且可以解决数据稀疏、过拟合等多种问题,在实际应用中取得较好的效果。 做过LTR的人都知道AUC是机器学习中非常重要的评估指标,AUC的提升会带来线上点击率的提升,其值越高越好,最大值为1。那么AUC到底是个什么东东呢?为什么AUC的提升就一定会带来点击率的提升?本文就带大家一起了解下AUC的概念及其与线上点击率的关联。

AUC是Area Under Curve的缩写,实际就是曲线下的面积。那么这条曲线是什么呢?AUC又要怎么求呢?别急,听我细细道来。 通常在训练模型时,我们需要从日志里获得某一天或者某几天的数据作为训练集,选取另外某一天或者某几天的作为验证集(通常训练集时间先于验证集时间)。日志里是一条一条的记录(通常包括用户标识、item标识、操作时间、操作类型等等),对于某一条记录,有用户点击的我们标记为1,代表用户对当前的item感兴趣,点击观看了(当然不考虑手抽点到的);对于展示但是用户未点击的我们标记为0,代表用户不感兴趣。在LTR中,根据训练集对模型进行训练,训练好的模型会为验证集的每一条记录打分,那么对于用户行为是点击的记录,我们希望得分高一些;而对于用户行为是不点击的记录,我们希望得分低一些,这样预测分数就可以代表用户对当前item的兴趣大小。AUC就是用来比较有点击记录的得分与无点击记录的得分是否满足上述关系的指标。这里需要强调的是AUC仅仅用来比较有点击与无点击的记录,不用来比较有点击之间或者无点击之间的关系(比如A记录中用户点击并且对该次展示极感兴趣,而B记录中用户对该次展示没有兴趣只是不小心点到,所以A记录得分理应高于B,但这不属于AUC的考虑范围)。 说了这么多,大家可能还不是很明白,到底AUC怎么计算呢?举个例子如下:

下表中有如下6条记录,

这里我们无法预知同为用户点击过的A和D两条记录到底谁的得分更应该高一些,也无法预知其余四条未点击的记录谁的得分应该更低一些。但是根据AUC的概念,A和D的得分应该高于其余四条记录中的任意一条。下面开始计算AUC的流程: 我们需要将记录A、D分别与另外四条记录比较,一共有8组对比。这里计算AUC的分母就是8;那么共有多少组对比是满足要求的呢?记录A比另外四组(B、C、E、F)得分都高,记录D只比另外二组(E、F)得分都高,所以八组对比中满足条件的只有6组,那么分子就是6。所以我们计算得到的AUC就是6/8 = 0.75。简单吧?好像确实不是很难耶! 下面对AUC的计算做一个简单总结:通过模型对验证集中的每条记录做一个预测。这些记录中有点击行为的记录数为M,未点击的记录数为N,则用有M*N组对比。对于有点击的M条记录分别记为p1、p2、……pM,对于其中任意一条记录Pi,其预测分数高于未点击记录的个数为记做 alpha_{i} ,则满足条件的对比组为 alpha_{1}, alpha_{2}, ... ,alpha_{M} 的累积和,除以M*N就是本次记录组中AUC的结果。我们需要对比有点击行为的记录与无点击行为的记录,要求有点击行为记录的预测分数高于无点击行为记录的预测分数,AUC就是衡量满足要求的对比数占总对比数的指标。

上一小节中介绍了如何计算AUC,相信大家已经掌握了原理和计算方法。其实网上大部分介绍AUC的文章如出一辙,但是好像都不是上述方法,二者一样吗?难不成AUC有两种计算方式?下面就进行一下对比,看看到底咋回事。

看过网上介绍AUC的同学一定都知道下面四个概念:

大家可能看的有点头晕,下面在用更通俗的语言描述下:

前文已经说了AUC实际是曲线下的面积,那么这条曲线是什么呢?有了上述概念我们就可以画出这条曲线了,其横坐标是False Positive Rate(假阳率,FPR),纵坐标是True Positive Rate(真阳率,TPR),那这两个指标怎么算呢?公式如下:

到现在为止,基本画AUC曲线所需要了解的概念都描述了,大家晕了吗?反正我是晕了,这和上一节介绍的计算AUC的方法是一样的吗? 答案直接而有坚定:是!!!

那么该如何理解呢?说到这里就不得不提阀值的概念。对于某个二分类分类器来说,涉及最多的阀值就是0.5了,对于每一次预测大于0.5的认为是正样本,小于0.5的认为是负样本。那么AUC曲线中阀值是多少呢?这里的阈值很多,我们可以把下述曲线理解成一个个小长方形,每一个长方形对应于每一个阀值。下面描述如何选取阀值与画出这些小长方形。

这里仍然假定共M有个正样本(用户点击)与N个负样本(用户未点击),分别对个M正样本与N个负样本的预测分数进行降序排列,对应的序号分别为

对应的预测分数分别为

这里阈值就是负样本分数:

首先选取作为阀值(分数>=阀值为正样本,<阀值为负样本),则此时负样本中仅有的p1满足预测分数大于等于阀值(实际是等于),故假阳率为 frac{1}{N} ;对应的正样本预测分数有 heta_{1}, heta_{2},..., heta_{alpha1} 大于等于阀值,共 alpha_{1} 个,真阳率 frac{alpha_{1}}{M} ,对应的第一个长方形的面积 frac{1}{N} imesfrac{alpha_{1}}{M}

接着选 beta_{2} 作为阀值,此时假阳率 frac{2}{N} ,但对应于第二个长方形的宽还是 frac{1}{N} (需减去前一个长方形的宽),正样本预测分数中 heta_{1}, heta_{2},..., heta_{M} 大于阀值共 alpha_{2} 个。由于 beta_{1}>beta_{2} ,则必有 alpha_{1}<alpha_{2} ,这也解释了曲线中y随着x的增大而增大。此时真阳率 frac{alpha_{2}}{M} ,对应的第二个长方形的面积为 frac{1}{N} imesfrac{alpha_{2}}{M} ……

将根据阈值划分的各小长方形累加得到曲线下的面积也就是AUC,其表达形式为

分子是满足条件的对比组,分母是总对比组,形式与第一节介绍的计算AUC的表达式一模一样!

这里我们选取负样本的得分作为阀值,当然也可以选取正样本的分数作为阀值。则横坐标是False negative Rate(假阴率,FNR)纵坐标是True Negative Rate(真阴率,TNR),对应公式如下:

对正负样本预测分数进行升序排列,依次选取正样本的分数作为阀值,最后得到的结果与上述表达式一致。

至此,我们已经详细描述了如何计算AUC,最后补上AUC的一般判断标准 0.5~0.7:效果较低 0.7~0.9:效果不错,可用于上线 0.9~1.0:效果超级好,但是一般情形下很难达到

晚上加班回家洗完澡,打开**头条,翻到推荐页面,映入眼帘的几条推荐内容都是我特别感兴趣的,好了不往下面翻了,把当前页面的看完再说;翻着翻着,没啥意思了,再看看时间不早了,算了睡吧明天还要早起呢。不看了睡觉吧 zzz。 通过上述可以看出大家对于推荐栏靠前的内容更容易点击,当然不排除有些人喜欢先翻个几下子在看的,如果这样那么LTR可能反而会降低客户体验,所以LTR优化时我们是不考虑这部分用户。LTR就是对于某一个特定用户,根据模型对召回的不同item的预测分数进行降序排列,如果AUC足够高,则根据预测分数进行排序的结果与用户真实兴趣排序的结果相符,这也是为什么我们要提高AUC的原因。将用户感兴趣的item优先展示,可以提高用户的点击数同时降低入屏但是不点击的数目,从而提高点击率,产生较好的用户体验。

通过上面我们可以看出,AUC正比于线上点击率。现在市面上各种app都在追求用户流量,高质量的推荐内容可以获得更好的用户体验从而获得更多的用户流量。所以线下训练模型是一般追求AUC的提升,但AUC高就一定好吗,请看下面两组数据对比: 第一组:

根据之前介绍的AUC计算方式可以得到这一组数据的AUC为 frac{5}{6}

第二组:

根据之前介绍的AUC计算方式可以得到这一组数据的AUC为 frac{11}{12}

通过对比AUC大家显然觉得第二组数据对应的模型性能更好。

真的吗?

真的是这样吗? 对于第一组数据,表中分别包含甲乙两个用户,对于这两个用户而言,预测分数大小关系完全符合用户点击行为与否,故模型在这两个用户上已不需要优化。对于第二组数据,丁用户各条记录的预测分数大小关系不完全符合用户点击行为(有点击行为的E预测分数低于无点击行为的F),故第二组数据对应的模型还需要优化。对比之前AUC,第二组的模型优于第一组,这里矛盾到底在哪里呢?分析如下: 第一组数据中共有2个正样本,6个负样本共12组对比,不满足条件的共两组(用户甲-itemB,用户乙-itemE), (用户甲-itemC,用户乙-itemE),可以发现这两组数据都是比较不同的用户,我们做LTR的目的是为了对每个用户推荐的item正确排序,不必理会不同用户间的item。表1可以看出用户甲的预测分数普遍偏高而用户乙的分数普遍偏低,这种趋势与item无关,仅仅取决于用户,所以比较不同用户之间的预测分数是没有意义的。如果我们用AUC来作为最终的判断标准会出现表1的情形,用户甲乙都满足LTR的排序,但是整体的AUC还是小于1。 上面说明了AUC作为LTR的指标的局限性,那么该如何选取呢。还是以表1为例,单独看甲乙两个用户,用户甲的AUC是1,用户乙的AUC也是1,则总体AUC肯定是1。这里阿里巴巴提出了GAUC的概念,g是group的缩写,顾名思义就是分组AUC,分组的依据是用户名,根据不同的用户名分组得到不同用户的AUC,然后在加权平均得到最终的GAUC。这样就避免了不同用户之间的比较,消除了用户间差异。 现在剩下最后一个问题了,算出了不同用户的AUC如何进行加权得到GAUC呢。这里阿里巴巴也没有给出确切的公式,可以依据各用户的点击数或者是各用户的展示数。下面做一个简单的公式推导: 以推荐系统来说,LTR是为了提高用户的点击率,这里用户点击用ck表示,展示数目用pv表示。假设有三个用户,点击数分别为

展示数目分别为

点击率分别为

则总体可表示为

可以看出总体点击率是不同用户的根据展示数进行加权得到的,所以不同用户根据展示数加权得到GAUC是合理的。 但是这里不能忽略一个问题,AUC是预测分数满足大小关系的正负对占总的正负对的比值,对比数越多,AUC就越准确。假如两个用户都展示了10条,其中一个用户点击了1条,那么该用户对应的AUC有9组对比;另一个用户点击了5条,那么该用户对应的AUC有25组对比,显然计算GAUC时后一个用户对应的AUC的权重应该大一点。这里全球领先的文本职能处理专家—达观数据公司提出从从AUC的定义出发来计算GAUC。这里将各用户计算AUC的分子相加作为计算GAUC的分子,各用户计算AUC的分母相加作为计算GAUC的分母,由于模型不会偏向于任意用户,故这种计算GAUC的方法是较为准确的。大家也可以在实际工程中应用。

总结

本文首先介绍了AUC的基本概念和计算方法,同时对比了两种计算AUC的方法,其不过是最终表达式的两种展现形式。接着描述了AUC与线上点击率的关联。最后补充了AUC的不足同时引出了GAUC,用以消除用户间的差异,同时提出了一种新的计算GAUC的方法。

ABOUT | 关于作者

最新文章
红米K80 Pro推送澎湃OS 2正式版内测 优化触控体验
  值得一提的是,小米澎湃OS 2上的Xiaomi HyperConnect技术现已全面支持苹果设备。只需在你的iPhone或iPad上安装“小米互联服务”应用程序,就可以轻松实现文件和图片在不同品牌设备之间的互传。版权所有,未经许可不得转载
常德微信商城小程序制作报价制作【常德微信商城小程序制作报价开发】
▶当下热门【社区团购】平台系统▶支持单商户、多商户商城系统▶分销、拼团、会员、秒杀等热门营销功能▶覆盖50+行业,超600+套免费商城模板 立即制作▶覆盖电脑网站、手机网站、、微信商城等多个展示终端▶性价比超高的电商系统开发方案,
成品人网站 W灬源码 1688——一款实用的网站源码,功能强大,操作便捷
在当今数字化时代,拥有一个功能强大且操作便捷的网站对于个人和企业来说至关重要。而 W灬源码 1688 就是这样一款备受赞誉的网站源码,它为用户提供了丰富的功能和卓越的性能,助力用户打造出令人印象深刻的网站。功能强大源码提供了多种精
TGA玩家之声最终提名名单”登B站热搜!网友:我被中国游戏包围了
直播吧12月10日讯 TGA 2024颁奖典礼将于12月13日上午8点半举行,官方今日公布了“玩家之声”进入最终投票的五款入围游戏,分别为《黑神话:悟空》、《绝区零》、《艾尔登法环:黄金树幽影》、《鸣潮》与《原神》。 点击加载图片 " t-rc="ht
新仿《北京时间》网站源码 帝国cms7.5内核新闻资讯门户网站模版+wap手机端
交易流程发货方式1、自动:在上方保障服务中标有自动发货的商品,拍下后,将会自动收到来自卖家的商品获取(下载)链接;2、手动:未标有自动发货的的商品,拍下后,卖家会收到邮件、短信提醒,也可通过QQ或订单中的电话联系对方。交易周期
苹果Safari浏览器中的20几个隐藏技巧
Safari是苹果在和iPad上的默认网络浏览器。虽然我们天天都在使用,但是,你是否深入研究了Safari的所有功能和设置?无痕浏览、阅读器视图和下载文件等标准选项只是其中的一部分,还有更多操作等你去发现。如果升级到 15或iPadOS 15,就会有
秒杀活动工具,用发一发小程序
商家在做秒杀活动时,锁定目标用户群可是非常重要的一点,先要清楚参与活动顾客是什么类型的群体,更偏向什么样的产品需求,能更好的促使秒杀活动的成功。拥有一个秒杀活动工具也是活动成功的关键,那么秒杀活动工具有哪些?点击下方即可使
【新农人】安丘市农业考察团莅临广东新农...
 从1926年南洋归来的徐闻人倪国良在愚公楼村栽下第一棵菠萝,到种植范围由愚公楼扩大到全县,乃至跨出县域,广东省湛江市徐闻县的菠萝种植已经有了近一个世纪的历史。  在近百年发展的基础上,徐闻县近几年通过国家现代农业产业园创建,
给一个网站让做优化自然排名做到百度首页前三要怎么做
在开始进行网站优化之前,首先要明确我们的目标:将网站的自然排名提升到百度首页前三。这需要我们对网站的关键词、内容、结构、外部链接等多个方面进行全面优化。关键词研究与策略制定1. 选择合适的关键词:根据网站的主题和定位,选择具
融水网络推广优化,企业腾飞的新动力引擎
融水网络推广优化,成为企业发展的新引擎,通过精准策略提升品牌知名度,拓宽市场渠道,助力企业高效腾飞,实现业绩飞跃。随着互联网的飞速发展,网络营销已经成为企业品牌推广、产品销售的重要手段,在竞争激烈的今天,如何进行有效的融水
相关文章
推荐文章
发表评论
0评