统计学习方法有哪些
统计学习方法有哪些
统计学习方法的三要素,包括假设空间、模型的选择准则以及模型学习的算法,简称为模型、策略和算法。具体请看下文,下面是学习啦小编分享给大家的统计学习方法的资料,希望大家喜欢!
统计学习方法一
1.极大似然原理:
学习啦在线学习网 例子1:原理是这样的,一个师傅和一个徒弟去打猎,如果第一个猎物被打到了,不知道是谁打的,就猜是师傅打的,这就是极大似然。
学习啦在线学习网 例子2:假设一件事有100种可能性,在一次试验中其中一种可能性发生了,所以给人一种感觉这种可能性是最容易发生的,极大似然的想法就是使这种可能性达到最大
统计学习方法二
2.实际应用中极大似然估计分布的参数:
学习啦在线学习网 根据n个样本,估计整体分布的参数,比如我们知道总体是服从正态分布,但是不知道具体参数theta和u。其基本思想是这样的:选择一个参数使得实验结果具有最大的概率,已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
Em算法和最大似然估计的关系:
EM算法是求最大似然估计的一种方法,但是当含有隐变量时候不方便通过似然函数求导,来求参数,所以就分了e步和m步来求,这样方便
P15页上面的“S折交叉验证”和“留一交叉验证”有什么区别吗?
学习啦在线学习网 它们都是在数据集不够的条件下使用的一种方,举个例子吧s折交叉验证,外层一个大循环(比如你可以让它循环10次),其中每一次都将数据集划分为训练集和测试集,这两大块的数据集大小的比例没做限定,然后用训练集训练模型,测试集经验风险,最后循环结束,对这些风险取平均值。
S折是把数据分成互不相交的S份,这里有个完备的概念,S-1份作为训练集,剩下的一份作为测试集,注意每一份是随机选的,但是个数相同,这S份都要遍历一遍,最后取平均值,不是取某一份最小的值,会发现用交叉验证每运行一次代码,结果都不一样,因为交叉验证虽然把数据评论分成S份,但每分都是随机选的,里面有个随机量,留一法就是只留一条数据作为测试数据,其他都作为训练集,是每份为一的交叉验证,特殊的交叉验证,留一法准确率高,就是运算量大,以上都是因为,我们训练数据太少,我们要怎家训练的多样性,才这么干的
结构风险等于经验风险加正则化项。都是复杂度越小越不容易过拟合,那完全可以加很小,趋于零 相当于不加了,只剩经验风险了。那有什么意义呢?对于过拟合。
对于正则化惩罚我是这么理解的。和为惩罚?我们训练策略是要求经验损失尽可能小,当然模型复杂了,训练效果好了,经验损失肯定会小,但是这时候可能过拟合了,一个模型能使损失尽量小,我们有模型后面加上一个惩罚项就是加上一个数,是他不那么容易把损失变得那么小。
统计学习方概论
学习啦在线学习网 为了更好的把机器学习、深度学习用到油藏开发中,需要学习最先进的算法。通过这篇概论可以看到,几乎所有的统计学习问题,都变成了最优化问题。
统计学习的方法是基于数据构建统计模型从而对数据进行预测和分析。统计学习由监督学习、非监督学习、半监督学习和强化学习。李航的《统计学习方法》主要讲解监督学习。
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
统计学习方法的三要素,包括假设空间、模型的选择准则以及模型学习的算法,简称为模型、策略和算法。
监督学习从训练数据集合中学习模型,对观测数据进行预测。人们根据输入、输出变量的不同类型,对预测任务给予不同的名称:输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量和输出变量均为变量序列的预测问题称为标注问题。
监督学习中,假设训练数据与测试数据是依联合概率分布P(X,Y)独立同分布产生的。
在学习过程中,学习系统利用给定的训练数据集,通过学习得到一个模型,表示条件概率分布P(Y|X)或决策函数Y=f(X),条件概率分布或决策函数描述输入与输出随机变量之间的映射关系。
在学习过程中,学习系统(也就是算法)试图通过训练数据集中的样本(xi,yi)带来的信息学习模型。
方法=模型+策略+算法
学习啦在线学习网 在监督学习中,模型就是要学习的条件概率分布或决策函数。一般,由决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型。模型的假设空间包含所有可能的条件概率分布或决策函数。
学习啦在线学习网 统计学习的目的在于从假设空间中选取最优模型。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。根据大数定律,等样本容量趋于无穷时,经验风险区域期望风险。
学习啦在线学习网 经验风险最小化的策略认为,经验风险最小的模型是模型最优的模型。根据这一策略,按照经验风险最小化求最优模型就是求解最优化问题。
当样本容量足够大时,经验风险最小化能保证很好的学习效果,在现实中被广泛使用。但是,当样本容量很小时,经验风险最小化学习的效果未必很好,会产生“过拟合”现象。
学习啦在线学习网 结构风险最小化是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化,它是在经验风险上加上表示模型复杂度的正则化项(regularizer)或惩罚项(penalty term)。模型复杂度是定义在假设空间上的泛函。结构风险小需要经验风险与模型复杂度同时小。结构风险最小化的策略认为结构风险最小化的模型是最优的模型。所以求最优模型,就是求解最优化问题:
算法是指学习模型的具体计算方法。统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。如何保证找到全局最优解,并使求解的过程非常高效,就成为一个重要问题。
统计学习可以利用已有的最优化算法,有时也需要开发独自的最优化算法。
学习啦在线学习网 统计学习方法之间的不同,主要来自其模型、策略和算法的不同。
统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都有很好的预测能力。测试误差反应了学习方法对未知的测试数据集的预测能力,是学习中的重要概念。通常将学习方法对未知数据的预测能力称为泛化能力(generalizationability)。
学习啦在线学习网 监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。监督学习方法可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。
典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。
典型的判别模型包括:k邻近法、感知法、决策树、逻辑斯递归模型、最大熵抹胸、支持向量机、提升法和条件随机场等。
学习啦在线学习网 生成方法的特点:可以还原出联合概率分布P(X,Y),而判别方法不能;生成方法的学习收敛速度更快,当存在隐变量时,仍可以用生成方法学习,测试判别方法不能用。
学习啦在线学习网 判别方法的特点:判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,汪汪学习的准确率更好;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
分类问题是监督学习的一个核心问题,监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。
分类问题包括学习和分类两个过程。在学习过程中,根据已知的训练数据集利用有效的学习方法学习一个分类器;在分类过程中,利用学习的分类器对新的输入实例进行分类。
许多学习方法可以用于分类,包括k邻近法,感知机,朴素贝叶斯,决策树,决策列表,逻辑斯递归模型,支持向量机,提升方法,贝叶斯网络,神经网络,window等。
标注(tagging)也是一个监督学习问题,可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测(structureprediction)问题的一个简单型式。标注问题类似于沉积序列问题,结构预测类似于沉积相分布预测问题。
学习啦在线学习网 标注问体的输入是一个观测序列,输出是一个标记序列或状态序列。标注问体的目标在于学习一个模型,使它能够预测序列给出标记序列作为预测。注意,可能的标记个数是有限的,但其组合所称的标记序列的个数是依序列的个数长度呈指数增长的。
标注常用的统计学习方法有:隐式马尔科夫模型、条件随机场。
标注问题在信息提取、自然语言处理等领域广泛使用,是这些领域的基本问题。
回归问题是监督学习的另一个重要问题。回归用于预测输入变量和输出变量变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值也发生的变化。回归莫i选哪个正是表示输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合。
学习啦在线学习网 终于确认,多点地质统计学建模算法采用的就是机器学习的思路。