当前位置 : 首页/人工智能/机器学习/机器学习十大算法详解

机器学习十大算法详解

发布时间:2021年9月6日 14:57 作者:誉新源

最为常用的机器学习算法是学习对Y=f(X)来预测新X的Y,它被称为预测建模或预测分析,我们的目标是尽可能做出最精确的预测。如果我们知道函数f的形式和形式,我们就可以直接使用它,而不必用机器学习算法从数据中学习。


常见的机器学习算法如下:


一、线性回归


一种线性回归的表达式是描述一条直线,它通过寻找输入变量的特定权值(称为B),来描述一条表示输入变量与输出变量y关系的最佳直线。它可能是最著名、最容易理解的统计学和机器学习算法之一,而预测建模的重点是使模型错误最小化或尽可能精确的预测,以牺牲可解释性为代价。


二、Logistic回归


逻辑回归和线性回归类似,都是为了求出每个输入变量的权值,即系数值。和线性回归不同,Logistic回归预测输出的方法是用一个叫做logistic函数的非线性函数来转换。这是一种快速学习模型,对二类问题十分有效。


三、.线性鉴别分析(LDA)


采用线性判别分析进行预测的方法是计算每一类的判别值,并预测存在最大值的类别。这种技术假定数据是高斯分布的,所以最好提前将异常值从数据中去除。处理分类预测模型问题是一种简单有效的方法。


四、分类和回归树


一个决策树的叶节点包含一个用于预测的输出变量y,通过遍历该树的分割点,直到到达一个叶节点,并输出该节点的分类值。这种决策树模型是一种二叉树,它具有快速的学习和预测能力,能够解决大量的问题,而且无需对数据进行专门的准备。


五、朴素贝叶斯


朴素贝叶斯是一种简单但功能强大的预测建模算法,它包含两种概率,它们都可以通过训练数据直接计算出来:1)每类概率;2)给定每个x的值,每类的条件概率。当数据为实值时,通常假定有高斯分布,这样就可以简单地估计出概率。


六、K近邻算法


KNN算法在整个训练集内搜索最相似的K个实例(近邻),计算出K个实例的输出变量,预测新的数据点。KNN需要大量的内存和空间来存储所有的数据,但计算(或学习)只在需要预测的情况下进行。能够随时更新和管理培训实例,保证预测的准确性。


七、LVQ(LVQ)


LVQ(LVQ)是一种人工神经网络算法,它使您能够选择训练实例的数目,并精确地了解这些实例应该是什么样的。然后,通过计算每个码本向量与新数据实例之间的距离,找到最相似的近邻。再将最佳匹配单元的分类值作为预测结果。


八.支持向量机(SVM)


超面是指将输入变量空间分割成的直线,超平面与最近的数据点之间的距离称为间隔,这两类最佳或最佳超平面具有最大间隔。事实上,优化算法是用来求最大间隔的系数。


九、Bagging


Bagging是对数据样本进行数量估计的有力的统计方法。从训练数据中提取多个样本,然后建立数据模型。如果您需要预测新数据,那么每一个模型都进行预测,并将所有预测值平均起来以更好地估计出实际的输出值。


十、随机森林


随机森林是对“随机森林”方法的一种改进,在随机森林方法中,决策树引入了随机性,而非最优分割点。对于每一个数据样本所创建的模型和其他方法都有差异,这使得对实际输出值的估计更加准确。