分享好友 最新动态首页 最新动态分类 切换频道
机器学习day3(西瓜书决策树+0-1小项目)
2024-12-29 08:14

前置学习

默认你已经理解了机器学习一里的留出法等对准确性提高的各种通用的前置方法

引用部分为西瓜书原文(这句话的不算

决策树

顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面临决 策问题时一种很自然的处理机制.例如,我 们 要 对 “这是好瓜吗?”这样的问题 进行决策时,通常会进行一系列的判断或“子决策”:我 们 先 看 “它是什么颜 色?”,如 果 是 “青绿色”,则 我 们 再 看 “它的根蒂是什么形态?”,如 果 是 “蜷 缩 ”,我 们 再 判 断 “它敲起来是什么声音?”,最后,我们得出最终决策

决策树学习的目的是为 了产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简 单且直观的“分而治之"(divide-and-conquer)策略

决策树的生成是一个递归过程.在决策树基本算法中,有三种情形会 导致递归返回:( 1 )当前结点包含的样本全属于同一类别,无需划分;( 2 )当前 属性集为空,或是所有样本在所有属性上取值相同,无法划分;( 3 )当前结点包 含的样本集合为空,不能划分

每一次的判断都是根据一个特征来的

我们肯定要判断,哪一个特征的权证更高一些,我们优先对这个特征进行判断

于是又了信息增益的判断

为什么它能判断

“信 息 熵 "(information entropy)是度量样本集合纯度最常用的一种指标.

熵越大,随机变量的不确定性就越大

信息增益是相对于特征而言的,信息增益越大,特征对最终的分类结果影响也就越大,我们就应该选择对最终分类结果影响最大的那个特征作为我们的分类特征

如何计算信息增益(小编还没学到信息论

推导:此处省略一千字

然后呢,问题又来了,我一定要使用信息增益判断吗

不是,还可以用增益率

信息增益准则对可取值数目较多的属性有所偏好,为减少这种 偏好可能带来的不利影响,著名的C4.5决策树算法[Quinlan, 1993]不直接使 用信息增益,而是使用“增益率”(gain ra tio )来选择最优划分属性

还可以用基尼指数(知道有就行主要我没看懂,书里也没有详细介绍优缺点

选择什么特征进行第一步判断了,下一步是什么

第一章提到了所有算法都需要解决的问题,过拟合

预剪枝和后剪枝,就是解决这个问题的

一个开销少,准确度相对低;一个开销大,准确度相对高。

预剪枝使得决策树的很多分支都没有“展 开”,这不仅降低了过拟合的风险,还显著减少了决策树的训练时间开销和测 试时间开销.但另一方面,有些分支的当前划分虽不能提升泛化性能、甚至可 能导致泛化性能暂时下降,但在其基础上进行的后续划分却有可能导致性能显 著提高;预剪枝基于“贪心”本质禁止这些分支展开,给预剪枝决策树带来了 欠拟合的风险.

后剪枝决策树通常比预剪枝决策树保留了更 多的分支.一般情形下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预 剪枝决策树.但后剪枝过程是在生成完全决策树之后进行的,并且要自底向上 地对树中的所有非叶结点进行逐一考察,因此其训练时间开销比未剪枝决策树 和预剪枝决策树都要大得多

连续与缺失值

如果刚才的数据

有连续(就是像密度,含糖率这样的属性特征,要怎么决定信息增益。用了一个连续属性离散化技术,把连续的编程离散的,想理解的可以看原文

有缺失(就是有一列数据中缺了几个数,要怎么解决

我没太理解,反正就是把信息增益的公式进化了一下

让他能处理缺失问题,从而依旧使用信息增益来判断

这里的代码我们参考Jack Cui的学习笔记https://github.com/Jack-Cherish/Machine-Learning/tree/master

先说一下常用sop

  • 收集数据:可以使用任何方法。比如想构建一个相亲系统,我们可以从陌陌探探青藤啥的那里爬一下数据,或者通过自媒体爆火视频和普通视频调研大家对相亲对象的标准。根据他们考虑的因素和最终的选择结果,就可以得到一些供我们利用的数据了。
  • 准备数据:收集完的数据,我们要进行整理,将这些所有收集的信息按照一定规则整理出来,并排版,方便我们进行后续处理。
  • 分析数据:可以使用任何方法,决策树构造完成之后,我们可以检查决策树图形是否符合预期。
  • 训练算法:这个过程也就是构造决策树,同样也可以说是决策树学习,就是构造一个决策树的数据结构。
  • 测试算法:使用经验树计算错误率。当错误率达到了可接收范围,这个决策树就可以投放使用了。
  • 使用算法:此步骤可以使用适用于任何监督学习算法,而使用决策树可以更好地理解数据的内在含义。

其实就是上面概念理解,和解决方案,从数理内容,转换成编程内容

如何用编程来实现这些个数学公式

机器学习实战教程(三:决策树实战篇之为自己配个隐形眼镜

接下来,非专门的技术人员远离

编写代码计算信息增益

 

创建决策树

 

可视化决策树

 

实现一个隐形眼镜的配置

数据从开源笔记中下载,以下是最终代码


最新文章
漫蛙漫画正版官网版软件特色
漫蛙漫画正版官网下载最新版是一款功能强大、易于使用的漫画阅读软件。它提供了最新的漫画更新、清晰易读的字体、简洁明了的界面设计、离线下载功能以及个性化推荐等特点,完全满足了用户的阅读需求。无论您是漫画爱好者还是新手,漫蛙漫画
控制器不存在:app\controller\Xxxr35862655
Server/Request DataUSERwwwHOME/home/wwwSCRIPT_NAME/index.phpREQUEST_URI/xxxr35862655/392780.htmQUERY_STRINGs=/xxxr35862655/392780.htmREQUEST_METHODGETSERVER_PROTOCOLHTTP/1.1GATEWAY_INTERFACECGI/1.1REDIRECT_QUERY_STRINGs=/x
网站启用https可能有助于SEO效果提升的示例分析-创新互联
这篇文章主要介绍了网站启用https可能有助于SEO效果提升的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。公司主营业务:成都网站设计、网站建设、移动网站开
游戏玩家更换不同IP登陆游戏要怎么选择合适的IP
在虚拟的游戏世界中,玩家们不断追求更优质的游戏体验和更高的账号安全性。而代理IP技术,作为实现这一目标的重要工具、首先,保护账号安全是游戏玩家更换IP地址的首要原因。在手游和网游中,账号被盗或被封禁的情况时有发生。一些不法分子
许昌灵活就业人员2024年度医保费缴纳标准调整通知
  胖东来扫码购二维码:  扫码进入线上商城后,点击“我的”→“自由购”即可进入扫码购小程序。  胖东来扫码购操作流程图解:  一、用微信扫一扫商场小程序码,或者通过“胖东来会员卡”小程序——“自由购”、“胖东来”小程序—
春节过后上班吧说说 春节年初三搞笑说说
也许【过后上班吧说说 春节年初三 】正好与您此时的心情一致,为您整理了21条有关的精美说说,这些说说以:【无论多大,真诚都……】这条最为经典,下面一起来欣赏吧!1、缕缕牵挂,让白云替我传达;声声祝福,由微信帮我送出。虽然总是茫茫碌
公众号小程序开发价格全解析,让你一目了然
随着移动互联网的快速发展,微信公众号小程序在近几年逐渐流行起来。许多公司和个人开始关注并投入开发自己的微信公众号小程序,以提供更便捷的服务,增加用户粘性。然而,对于刚接触微信公众号小程序开发的人来说,价格问题往往是最大的疑
优秀员工个人工作总结5篇
【#工作总结# #优秀员工个人工作总结5篇#】人只有在不断的总结中才能成长进步,总结这一阶段的工作做出的成绩,未完成的工作,得到的成长,自己的不足。计划未来目标,有奖惩措施,可量化可供审核和监督。《优秀员工个人工作总结》是®
篮球传奇巨星:回顾篮球史上的辉煌与潮流
篮球,这项激情四溢的运动,孕育了无数璀璨明星。乔丹、拉塞尔、张伯伦、奥拉朱旺等传奇人物,用他们的技艺和拼搏书写了篮球史上的辉煌篇章。而詹姆斯、库里等新时代领军人物,则以其独特风格引领篮球潮流。篮球,因为有了这些璀璨明星,才
相关文章
推荐文章
发表评论
0评