r语言多元统计分析 多元统计与r语言

   日期:2024-12-27    作者:lr2q6 移动:http://mip.riyuangf.com/mobile/quote/71208.html


r语言多元统计分析 多元统计与r语言


  • 多元考试练习:
  • 一. 多元线性回归模型:
  • 1. 建立回归模型
  • 2. 逐步筛选
  • 3. 最优标准方程,影响最大
  • 4. 全局择优法(使用4.2.1版本的R):
  • 5.分析
  • 6.由标准化偏回归系数可见,方差分析结果
  • 二. 判别分析
  • 1. 线性判别,贝叶斯判别正确率
  • 2. 预测情况
  • 3. 线性函数的迹为
  • 4. 其他后验概率
  • 三. logistic模型
  • 1.逐步筛选法后最优表达式,并预测
  • 2. 预测y=1时的概率
  • 3. 反向预测
  • 4. 对数线性模型,完全随机设计模型,随机单位设计模型,析因设计模型,正交实验设计模型
  • 四. 主成分分析(相关系数矩阵)
  • 1. 主成分相关
  • 2.综合得分公式以及排名
  • 3.其他
  • 五.聚类分析
  • 1. 采用不同法进行聚类
  • 2. kmeans
  • 六. 因子分析
  • 1. 建立因子分析模型
  • 2.因子F可视为哪些变量的公共因子,在哪个变量载荷最大
  • 3. 计算综合因子得分进行综合排名
  • 4.因子分析
  • 七. 给出两两之间距离,用最短距离做系统聚类,画出谱系图。
  • 八. 根据所给数据集自由发挥
  • 九. 数据可视化相关
  • 十. 对应分析


q1 = read.table(“clipboard”,head = T)

fm = lm (y~x1+x2+x3,data = q1)
fm
summary(fm)


逐步回归:

fm_step = step(fm,direcation = “both”)#both为逐步筛选法,forward为向前引入法,backward为向后引入法

全局择优法:

对每组子集, RSS越小、R2越大、调整R2越大、AIC BIC越小,模型越好。

偏回归系数b2,b4的p值都小于0.01,可认为解释变量税收x2和经济活动人口x4显著;b1,b3的p值大于0.50,不能否定b1=0,b3=0的假设。可认为国内生产总值x1和进出口贸易总额x3对财政收入y没有显著的影响。我们可以看到,国内生产总值、经济活动人口所对应的偏回归系数都为负,这与经济现实是不相符的。出现这种结果的可能原因是这些解释变量之间存在高度的共线性。

q2 = read.table(“clipboard”,head = T);q2

library(MASS)

attach(X)#打开数据,才可以用每列分量

线性:

贝叶斯:

二次判别:

predict(ld,data.frame(x1=,x2=))#ld写入用来预测的模型,x12=写入传入的值。

圈圈里面表示处于的情况(G值)

> (ld=lda(G~Q+C+P,prior=c(1,1,1)/3))

注意G值只能是0或者1

从计算结果来看,所有系数均通过了检验(α=0.1),没有则需要进行glm.new = step(logit.glm)此时回归模型为

当p=0.5,即

所以

q4 = read.table(“clipboard”,head = T)
q4

方差贡献率达到%情况下,最少的主成分个数为,其累计方差贡献率为,第一主成分方差,第一主成分表达式

我们从第一主成分对应系数的符号可以看出,x1到x8消费越高,Z1的值越小,Z1的绝对值越大。从第二主成分来看,正号大小多过负号大小,可认为x1到x8消费越高,Z2*的值越大。


计算主成分得分

综合得分

主成分方差 = 标准差的平方

q5 = read.table(“clipboard”,head = T);q5

qb5 = scale(q5)#标准化处理

分为三类,ward法中最少一类中包含____个样本,最长距离最多____样本,两个方法比较合理的是_____

d为距离计算方法:euclidean(欧氏距离),maximum(切比雪夫距离),manhattan(绝对值距离),canberra(兰氏距离),minkoeski(明氏距离)。

m为系统聚类方法 single(最短距离法),complete(最长距离法),average(类平均法),median(中间距离法),centroid(重心法),ward.D(ward法)。proc为是否输出聚类过程。plot为是否输出聚类图。

采用主成分法对样本进行因子分析,公因子个数是4.

极大似然+旋转FA0=factanal(X,3,rotation=“varimax”)

极大似然+不旋FA0=factanal(X,3,rotation=“none”)

主成分+旋转FA1=factpc(X,3,rotation=“varimax”)

主成分不旋FA1=factpc(X,3)

采用方差最大化方法进行因子旋转,写出因子模型,写出前两个因子的方差贡献率,共同度最大的变量是

因子模型

综合得分公式:

其中,0.40366为F1的方差贡献率,0.32449为F2的方差贡献率,0.15937为F3的方差贡献率,0.8875为前三个因子的方差累积贡献率

由旋转后的因子载荷矩阵可以看到:

公共因子F1在X1(人均食品支出)、X5(人均交通和通讯支出)、x7(人均居住支出)、x8(人均杂项商品及服务支出)上的载荷值都很大,可视为反映日常必须消费的公共因子。

公共因子F2在X3(人均家庭设备用品及服务支出)、x4(人均医疗保健支出)、x6(人均娱乐教育文化支出)上的载荷值很大,可视为反映相对高档消费的公共因子。

公共因子F3仅在x2(人均衣着支出)上有很大的载荷,可视为衣着因子。

这样就可以对各省、市、自治区的消费情况做评价。

  1. 聚类分析(宏观分析,区域划分)

2003年里,广东省各地区电信业发展除了差异性外,还有集中发展的趋势。我们可以利用聚类分析将广东省的各市分成几类。各类代表了不同的发展水平,同时每类所包含的城市具有类似的发展水平。经过分析,我们也得到一点启示:各市在发展电信业时,不能只片面强调通信总量,同时也要注意人均量的发展,注意在全地区范围内的普及。只有人均水平提升了,才真正具有意义,也才能说该城市的电信水平真正提高了。一个城市的电信业只有全面发展了,才能经受住WTO的冲击,才能保持良好的竞争力。同时,就广东省而言,尽管它的电信业总量2003年排到了全国之首,但是各地区间存在严重的差异。珠三角地区发展迅猛,电信业务总量大,市场份额高,而经济欠发达地区特别是山区和农村则发展较慢,总量小、份额低。对此,广东省政府应加快经济欠发达地区的电信建设,大力扩展山区电信市场,并采取扶持措施加强农村市场建设,促进广东省各地区电信业的协调发展。作为落后城市,也应该积极采取措施加速自身发展,提高竞争力,从而避免成为“拖油瓶”。

  1. 主成分分析(微观分析,综合排名)

由于指标多,不便于综合分析,先采用主成分分析法提取主要成分,然后进行相应的分析。用R软件运行后我们发现可以提取两个主要成分,这两个成分占全部的96.14% ,可以说是基本代表了全部指标的信息量。
经过主成分分析,我们发现可以提取两个主成分Comp. 1、Comp.2。
第一个主成分Comp.1主要由X(电信业务总量)、X(国际互联网用户)、X,(互联网用户使用时长)、X。(长途电话通话量)、X,(长途电话通话时长)决定,这5个指标是总量因素,说明一个城市的电信业规模和电信通信业务发展水平。
第二个主成分Comp.2主要由X(每百人拥有固定电话数)、X,(每百人拥有移动电话数)决定。这两个指标是平均量成分,反映了电信行业中的电话人均普及情况。
由于我们在主成分分析后选取的两个主成分PC,、PC,就代表了96.14%的信息,可以说基本表征了我们全部的指标。所以我们用提取的主成分进行各城市的综合分析。
我们发现七个经济指标可以用两个综合指标代替,而综合指标的信息没有损失多少。在此基础上,我们不仅可以算出各城市的成分得分,而且可以利用线性加权方法,以各主成分的贡献率为权数,即按公式(0.738 xPC,+0.223 xPC,) / (0.738+0.223)计算各城市电信业发展水平的综合得分并据此排名。其主成分得分和排名见下图。

  1. 分析

通过对各城市进行排名后,我们发现,排名比较靠前的地区有深圳、广州、东莞、惠州和佛山。比较靠后的地区有汕尾、湛江、茂名和阳江。
我们也可以从主成分得分图上清楚地看到,第一主成分Comp.1和第二主成分Comp. 2得分最高的均为深圳,而广东省各城市排名中稍有争议的是惠州、中山和茂名。我们回过去看前面的数据,发现尽管惠州市的第一主成分Comp.1水平,即通信发展水平低于中山市,但其第二主成分Comp.2因子,即电话普及水平是远远超过中山的,而第二主成分Comp.2所占的比重为全部变量的22.34%,这也是不容忽视的。而茂名市由于其互联网用户不够多而且人均电话普及量不够,其他两个主成分的得分都不高,而第二主成分尤其偏低,从而它的排名比较靠后。从主成分得分图上看到:
(1 )广州在第二象限,远离Comp. 1和 Comp.2轴。这说明广州的第一主成分Comp. 1得分比较高,仅次于深圳;但是第二主成分Comp.2得分较低。我们知道Comp. 1代表了电信业通信业务发展的总量水平,而Comp.2代表了电信业发展的平均量水平。结合Comp. 1 ,Comp.2的意义来分析,广州是广东的省会城市,经济、文化等各项总量发展水平都不错,电信业发展总量也不错,故而Comp.1得分比较高,仅次于深圳,但是由于广州也是一个大型开放性城市,人口也很多,人口增长的速度明显比电信业发展快,这样计算下来的人均量就不如深圳高了。(2)梅州和惠州的情况和广州有点相反,它们在电信总量方面不如广州,但由于其人口比较少,人均量高,从而尽管Comp.l得分比较低,但Comp.2有着很高的得分。这表现在主成分图上就是离Comp.2轴很近,离Comp.1轴很远。由于其特殊性,我们将它们单独分成一类。
(3)从图上我们看到深圳的位置在图中离原点比较远,同时它到Comp.1轴和到Comp.2轴的距离都比较远。这说明深圳Comp.1和 Comp.2的得分都比较高。深圳作为一个经济特区,自改革开放以来,各方面发展速度很快,是个发达城市,其移动电话用户比较多。近年来移动电话的发展在电信业发展中异军突起,也占据了重要地位。而与广州有所不同,深圳的人口总数不算太多,从而其电话普及率可以达到很高。正因为如此,它的Comp.2得分较高。同时由于其发达性,电话和互联网用户很多,电信业发展总量也不错,从而Comp.1有着很高的得分,在广东所有城市中排名第一。很高的Comp.l得分和比较高的Comp.2得分就决定了深圳在排名时可以领先于广州而居于第一位。

  1. 因子分析

结果分析:①从因子得分表可以看出,在盈利能力因子F上得分最高的四个公司依次是海螺水泥、福建水泥、冀东水泥和祁连山,这四家公司的得分远高于其他公司,这说明就盈利能力而言,这四家公司的盈利水平远高于其他公司,而盈利能力相对较弱的公司是尖峰集团、西水股份和牡丹江。②福建水泥、海螺水泥、四川金顶三家公司在因子F,上的得分较高,说明在水泥行业中,这三家公司的偿债能力是较好的,而狮头股份和大同水泥这两家公司在因子F,上的得分较低,则表明这两家的偿债能力相对较差,应着力提高。③在发展能力因子F,上,西水股份、海螺水泥的得分远远高于其他公司,反映在现实情况中,这两只股票从2008年到现在是稳中有升的,这也要得益于它们良好的发展能力。同时也说明在水泥行业上市公司中,就发展能力而言,好的公司还是少数,很多公司不注重长远稳健的发展,而只注重短期利润。这一点需要引起有关企业的注意。四川金顶在因子F,上的得分最低,说明它的发展能力最差,并且它的前两个因子得分也不高,在综合排名上也是靠后的,因此这家公司应从企业内部着手,进行整改,要从整体上提高公司的各项经营能力,达到提升公司经营业绩的目的。


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号