间内的连续曲线,而不能在沿用直线回归方程。
限制在,区间内的连续曲线很多,例如所有连续型随机变量的分布函数都符合要求,我们常用的是函数与正态分布函数。
函数的形式为函数的中文名称是逻辑斯谛函数,或简称逻辑函数。
第二,因变量本身只取,两个离散值,不适于直接作为回归模型中的因变量,由于回归函数表示自变量为的条件下等于的比例。
这提示我们可以用等于的比例代替本身作为因变量。
由于是型贝努利随机变量,则得如下概率分布显然有,故当因变量为型随机变量时,因变量均值表示给定自变量时的概率,又因为,所以因变量均值受到限制。
另外,误差项为具有异方差性的的两点型离散分布。
由于与只是相差个常数,因而与的方差是相等的。
型随机变量的方差为有式可得的方差依赖于,误差项方差随着的不同水平而变化,是异方差。
这时对个取值为和的因变量,误差项只能取两个值当时,当时,对以上回归方程作线性变化,令式变换称为逻辑变换,变换后的线性回归模型为回归模型成功的拟合了因变量为定型变量的回归模型,但是仍然从在个不足之处,就是异方差性并没有解决。
式的回归模型不是等方差的,应该对式用加权最小二乘估计,当较大时,的近似方差为其证明参考文献其中,,因而选定权数为分组数据的回归只使用于大样本的分组数据,对于小样本的未分组的数据不适用,并且以组数为回归拟合的样本量,使拟合的精度低。
实际上,我们可以用极大似然估计直接拟合未分组数据的回归模型。
未分组数据的回归模型设是型变量是与相关的确定型变量,组观测数据为,,其中,是取值为或的随机变量,与,的关系如下其中,函数是值域在,区间内的单调函数。
对于回归于是是均值为的型分布,且每个都服从分布。
设,可以把的概率函数合写为,于是的似然函数为,对似然函数取自然对数为,对于回归,将代入得到,这里用,来表明式可视为在给定样本之后估计参数,的对数似然函数。
为了得到最大似然函数估计,将式分别对,求偏导,然后领它们等于,可以求得估计值,使得式达到最大。
多类别回归分析记,为定性变量取得个类别,为取第个类别的概率因变量取值于每个类别的概率与组自变量,有关,对于样本数据,,多类别回归模型第组样本的因变量取第个类别的概率为,上式中各回归系数不是唯确定的,每个回归系数同时加减个常数后的数值保持不变。
为此,把分母的第于是的似然函数为,对似然函数取自然对数为,对于回归,将代入得到,这里用,来表明式可视为在给定样本之后估计参数,的对数似然函数。
为了得到最大似然函数估计,将式分别对,求偏导,然后领它们等于,可以求得估计值,使得式达到最大。
多类别回归分析记,为定性变量取得个类别,为取第个类别的概率因变量取值于每个类别的概率与组自变量,有关,对于样本数据,,多类别回归模型第组样本的因变量取第个类别的概率为,上式中各回归系数不是唯确定的,每个回归系数同时加减个常数后的数值保持不变。
为此,把分母的第项中的系数都设为,得到的回归函数的表达式,此表达式中每个回归系数都是唯确定的,第个类别的回归系数都取做,其他类别回归系数数值的大小都以第个类别为参照。
判别分析的概述模型判别分析是用于判断样品所属类型的种统计方法。
在生产科研和日常生活中经常遇到如何根据观测到的数据资料对所研究的对象进行判别归类问题。
例如在医学诊断中,个病人肺部有阴影,医生要判断他是肺结核肺部良性肿瘤,还是肺癌。
这里肺结核病人良性肿瘤病人肺结核病人组成三个总体,病人来源于这三个总体之,判别分析的目的是通过待侧病人的指标阴影的大小,边缘是否光滑,体温多少„„来判断他应该属哪个总体即判断他生什么病。
在气象方面主要应用在划分气候类型降雨类型等方面,可以是各个待测因素的本质得以区别出来在经济学中,根据人均国民收入,人均工农业产值,人均消费水平等多种指标来判定个国家经济发展程度所属类型。
在环境科学中,根据地区的气象条件大气污染元素浓度等来判断该地区是属于严重污染般污染,还是无污染。
在农林虫害预报中,根据以往的虫情及多种气象因子判别个多月后的虫情是大发生中发生或正常,等等。
总之,判别分析是应用性很强的种多元统计方法,已经渗到各个领域。
但不管到哪个领域,判别分析问题都可以这样描述设有个维总体其分布特征已知如已知分布函数分别为或知道来自各个总体的训练样本,对给定的个新样品,我们要判断它来自哪个总体。
在进行判别归类时,有假设的前提,判别的依据及处理的手法不同,可得出不同判别方法。
如距离判别,判别,判别或典型判别,逐步判别,序贯判别等。
但是,这些方法没有考虑被判对象是否有序的问题。
而许多实际问题中,被判对象都是有序的。
不考虑序的影响,就丢失了重大信息。
根据总体的不同,选择不同的判别方法。
此处,假设知道总体的特征量即参数均值和协方差阵,用距离判别来用。
利用回归进行二次判别提高判别分析效率般情况下,距离判别分析对数据的基本要求是分组类型在两组或两组以上在第阶段工作时每组案例的规模必须在个以上预测变量必须是可测量的以计算其平均值和方差来得到相应的统计函数。
另外还需要有定的假设条件每个判别变量预测变量不能是其他的判别变量的线性组合各组的变量的协方差阵相等各判别变量之间具有多元正态分析。
与此相比,回归没有类似假设,而且当这些假设不满足时结果非常稳定,具有很好的稳定性。
比如我们可以采用主成分分析来有效的减轻预测变量之间的多元共线性,当预测变量是非度变量是可以采用引入哑变量的方法来进行回归从而达到判别个体归属的目的等。
从另个方面讲,判别分析实际上是种针对数据结果进行分析的方法,而回归分析是基于数据之间的相关关系进行的分析方法,可以说这两种方法各有长处,将这两种方法的优点进行结合,显然有助于我们分析。
如何利用回归来完成判别分析呢回归意在对相应变量取或两个值得概率建模。
由此,只需建立定的判别准则,然后根据预测变量的不同水平来计算的预测概率,如果所得预测概率值相当大,就可预测要发生了,也即判别相应样本为组。
反之,如果预测概率相当小,预测相应样本为组。
实例分析省天水市环保局监测站于年在全市均匀地布置了个监测点,每日三次定时抽取大气样品,测量大气中二氧化硫氮氧化物和飘尘的含量。
前后天,每个取样点监测点每种污染元素的含量见附表。
表中最后列给出的类号是使用聚类分析方法得到的结果第类为严重污染区,第二类为般污染区,第三类为基本没有污染区。
试用广义平方距离判别法建立判别准则,并列出回判结果得由上表可得出每两组间的平方距离,由于协方差阵相等,所以平方距离相等。
,,,。
以及相对应的值,相应的值都,说明有显著差异,有回判意义。
得到的线性判别函数为由上表及下表可看出没有错判信息,错判的比率为用回归建立回归方程。
模型平方和均方回归残差总计预测变量常量,。
因变量系数模型非标准化系数标准系数共线性统计量标准误差试用版容差常量因变量结束语本文通过分析比较回归模型与判别分析的思想原理等,进而通过实例应用,在研究数据而分类问题上,研究判别分析和回归分类回判优越性。
分析得出判别分析和回归分类的回判正确率受随机误差大小和变量个数的影响很大,般情况下,回归的回判率优于判别分析。
但随着随机误差的变大,回归模型的回判正确率低于判别分析。
但总的来说,在处理因变量为定性变量的回归分析中,模型有很好的预测准确度和使用推广性。
参考文献王国梁等。
问卷调查资料的种统计分析方法回归模型。
统计研究易尚辉,易银沙,刘桃成,吕媛。
大肠癌预后回归分析,中国现代医学杂志,白玉峰,耿美英,连江宏,罗志昌,张松,杨文鸣。
逐步判别分析在心血管功能评定中的应用,北京工业大学学报,陈希孺。
广义线性模型。
数理统计与管理。
。
张尧庭等。
定性资料的统计分析桂林广西师范大学出版社,何晓群。
多元统计分析北京中国人民大学出版社,吴喜之,田茂雨。
现代回归模型诊断。
北京中国统计出版社,附表元素样品号二氧化硫氮氧化物飘尘类型号分类号编号毕业论文题目学院姓名专业学号研究类型指导教师提交日期原创性声明本人郑重声明本人所呈交的论文是在指导教师的指导下进行研究所取得的成果。
学位论文中凡是引用他人已经发表或未经发表的成果数据观点等均已明确注明出处。
除文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。
本声明的法律责任由本人承担。
论文作者签名年月日论文指导教师签名目录引言回归模型概述二分类回归分析分组数据的回归模型未分组数据的回归模型多类别回归分析判别分析的概述模型利用回归进行二次判别提高判别分析效率实例分析结束语参考文献致谢,附表回归与判别分析的比较摘要通过介绍回归与判别分析的判别功能的思想原理条件及定义,来说明在实际中的回判优越性。
利用随机比较方法,研究判别分析和回归分类回判正确率。
结果显示,回归回判正确率优于判别分析。
在处理因变量为定性变量的回归分析中,回归模型具有很好的预测准确度和应用推广性。
关键词判别分析回归回判率中图分类号文献标识码。
,引言生活中,在研究实际问题时,经常遇到分类问题。
在很多情况下,为了研究目的,将研究对象经常分为两类,成为二分类问题。
例如在次住房展销会上,与房地产商签订初步购房意向书的顾客中,在随后的个月的时间