分享好友 最新动态首页 最新动态分类 切换频道
数据挖掘任务
2024-12-26 14:56

​​​​​​数据挖掘的任务可以分为:分类、聚类、关联、回归、预测、序列分析等,具体的介绍如下
一、分类
分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。
典型的分类算法:决策树算法、神经网络算法、贝叶斯算法
二、聚类
聚类分析也称为细分,它基于一组属性对事例进行分组,同一个聚类中的或多或少有相似的属性值。
聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

三、关联
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
有人说啤酒和尿布是沃尔玛超市的一个经典案例,也有人说,是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。不管如何,“啤酒和尿布”给了我们一个启示:世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联。

四、回归
回归任务类似于分类任务,但它不是查找描述类的模式,它的目的是查找模式以确定数值。简单的线性线段拟合技术就是回归的一个例子,其结果是一个函数,可以根据输入的值确定输出。
回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。把两个或两个以上定距或定比例的数量关系用函数形势表示出来,就是回归分析要解决的问题

五、预测
预测技术采用数列作为输入,表示一系列时间值,然后应用各种能处理数据周期性分析、趋势分析、噪声分析的计算机学习和统计技术来估算这些序列未来的值。
你可以预测某一特定月份的销售。

六、序列分析
发现离散序列中的模式,序列由一串离散值(或状态)组成,例如DNA序列,Web点击的url序列,购买商品的次序。序列数据和时间序列数据都是连续的观察值,观察值相互依赖,区别在于序列包含离散的状态,而时间序列包含的是连续的数值;序列和关联数据有相似,都是包含一个项集或一组状态,区别在于序列模型分析的是状态的转移,而关联模型认为购物篮的每个商品平等且独立。序列认为先买电脑后买扬声器与先买扬声器后买电脑是两个不同序列,关联则不同。主要的序列分析技术有Markov链。
图描述了某个新网站的Web点击序列。每个节点是一个URL地址每一条边标示两个URL地址的转移。没一个转移用一个权值标示,表示从一个Url地址转到另一个URL的概率

七、偏差分析
偏差分析又称比较分析,它是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象。
偏差检测的基本方法是:寻找观测结果与参照值之间有意义的差别
例子:信用卡欺诈行为检测、网络入侵检测、劣质产品分析

a.根据性别划分公司的顾客。

否。这是一个简单的数据库查询

b.根据可盈利性划分公司的顾客。

否。这是数学计算,伴随着阈值应用。如果计算顾客购买的的可能性,则是数据挖掘。

c.公司的总销售额。

否。简单的数学计算。

d.根据学生的标识号码对学生数据库排序。

否。这是简单的数据库查询。

e.预测一枚均匀骰子的结果。

否。 既然骰子是均匀的,这就是概率计算。如果不均匀,我们需要从数据中,估计每种可能结果的可能性,那么这就更像是数据挖掘考虑的问题。然而在特定情况下,这种问题长时间以来是数学家要解决的问题,我们不把他考虑成数据挖掘问题。

f.利用历史记录预测某公司未来的股票价格。

是。我们会试图建立一个可预测连续股票价格价值的模型。这是一个简单的数据挖掘领域,即预测建模。我们可以使用回归模型来建模,即使许多领域的研究者们已经发展出了大量技术来预测时间序列。

g.监测病人心率的异常变化。

是。我们会建立一个心率正常变化的模型,当心率出现异常时发出警报。这就是数据挖掘领域中的异常检测。

h.监测地震活动的地震波。

是。这个案例中,我们会建立一个和地震活动相关的不同种地震波变化模型,当其中地震活动被观察到时发出警报。这是数据挖掘领域中的一种----分类。

i.提取声波的频率。

否。这是信号处理。

2.假设你是一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。举例说明如何使用诸如聚类、分类、关联规则挖掘和异常检测等技术,让数据挖掘为公司提供帮助。

举例

聚类可以通过某个主题的相似性为结果分组,从而使呈现给用户的主题更加简洁,比如报告簇中使用最多的十个单词。

分类可以把结果分配到预定义的类别中,如"运动""政治",等等。

序列关联分析可以检测特定序列伴随其他特定序列的高可能性,允许更有效率的存储。

异常检测技术可以发现用户流量的不寻常模式,比如某个物品突然变得更加受欢迎。广告可以使用这种技术来调整策略。

数据挖掘所得到的信息具有先前未知、有效和使用三个特征。

数据挖掘与查询:在一句话中找人民是数据挖掘,在表格中找出人民是查询。

数据预处理技术:数据清理、数据集成、数据变换(平滑、聚集、数据泛化、规范化、数据离散化)、数据归约(抽样、特征选择)、数据离散化

最新文章
梦幻西游全服第一童子 18技能资质不差感受人生巅峰
  逆袭无级别的玩家有上千个,但是绝大多数的无级别装备价格都在10万以下,价格能到50万以上的少之又少!童子不一样,他是目前梦幻西游里175级玩家用来打服战的最佳选择。内丹数量6个、天生成长资质高、有必带技能,合成多技能的童子可比
(2024版)天翼云从业者认证考试题库(多选题汇总).docxVIP
(2024版)天翼云从业者认证考试题库大全-下(多选题汇总)第一部分多选题1.边缘节点是相对于网络复杂结构而提出的一个概念,指距离最终用户接入具有较少的中间环节的网络节点,对最终接入用户有较好的什么?A、运维能力B、响应能力C、安全能力D
贵阳夜生活指南:2024年热门商务KTV与夜总会排名及包厢价格概览
发布时间:2024-12-14 14:45:01贵阳,这座光与影交织的城市,以其独特的魅力吸引着八方来客。夜幕降临,华灯初上,贵阳的夜生活也随之拉开帷幕。你可以体验到别具一格的休闲娱乐方式,无论是逛街购物,还是享受夜总会的繁华,都能让人沉醉
上海徐汇线上青少年编程培训名单大全一览
课程单价:250元课时数:80节全部校区:童程童美少儿编程(南城中心)课程内容:课程采用SPIKE硬件以编程逻辑为主要学习目标,引导学生进行自主设计、搭建、编程,培养学生独立解决问题的能力。课程中还引入知名科创挑战活动的经典项目,锻
行为人的笔迹是怎么鉴定的?
一、行为人的笔迹是怎么鉴定的?由司法鉴定机构进行,笔迹鉴定的整个过程可以分为分别检验、比较检验、综合判断三个阶段。1、分别检验分别检验是发现与确定检材笔迹与样本笔迹各自的特征:真实程度、检材特征、样本特征。2、比较检验比较检
sem推广是什么?SEM推广的基本原理和优势
  SEM(Search Engine Marketing)是指通过搜索引擎进行网络营销的一种方式。在当今数字化时代,搜索引擎已经成为人们获取信息、寻找产品和服务的主要途径之一。而SEM推广作为一种有效的网络营销手段,已经成为各行各业企业提升品牌知名度
逆水寒手游江湖门派技能效果
逆水寒手游中有五大江湖门派,加入之后可以学会独特的门派技能。不少玩家对于这些门派的技能非常感兴趣,本次就给大家详细介绍一下。1、相思门相思剑法一式:突刺,对路径敌人造成伤害二式:化为剑影,跟随指定目标,持续造成伤害。三式:斩击。
还有6天,一年一度的云电脑产业嘉年华即将开启
12月18日14:00北京香格里拉饭店2024通信产业大会AI赋能云电脑创新发展论坛一年一度的云电脑产业嘉年华盘点2024云电脑产业发展特征展望2025AI云终端技术趋势发布2024云电脑产业创新调研(第二届)行业领袖纵论AI赋能产业机会和挑战最新云电
网站运营做seo/保定seo推广外包
  在有条件有能力的情况下,可以考的证书还是比较多的,也没有必要全部都考,主要看自己需要,符合需求。 那先了解一下PMP: PMP®的全称是Project Management Professional(项目管理专业人士资格认
武汉范湖万达CBD在线中学生编程培训班
课程单价:240元课时数:80节全部校区:童程童美少儿编程(河西万达中心)课程内容:课程分为3个单元,每个单元都会带领学生用AI工具从0到1完整的开发一个项目。课程特色这个阶段的学习,孩子们将收获35个AI体感游戏开发的知识点、50个程序
相关文章
推荐文章
发表评论
0评