最为常用的机器学习算法是学习对Y=f(X)来预测新X的Y,它被称为预测建模或预测分析,我们的目标是尽可能做出最精确的预测。如果我们知道函数f的形式和形式,我们就可以直接使用它,而不必用机器学习算法从数据中学习。
常见的机器学习算法如下:
一种线性回归的表达式是描述一条直线,它通过寻找输入变量的特定权值(称为B),来描述一条表示输入变量与输出变量y关系的最佳直线。它可能是最著名、最容易理解的统计学和机器学习算法之一,而预测建模的重点是使模型错误最小化或尽可能精确的预测,以牺牲可解释性为代价。
逻辑回归和线性回归类似,都是为了求出每个输入变量的权值,即系数值。和线性回归不同,Logistic回归预测输出的方法是用一个叫做logistic函数的非线性函数来转换。这是一种快速学习模型,对二类问题十分有效。
采用线性判别分析进行预测的方法是计算每一类的判别值,并预测存在最大值的类别。这种技术假定数据是高斯分布的,所以最好提前将异常值从数据中去除。处理分类预测模型问题是一种简单有效的方法。
一个决策树的叶节点包含一个用于预测的输出变量y,通过遍历该树的分割点,直到到达一个叶节点,并输出该节点的分类值。这种决策树模型是一种二叉树,它具有快速的学习和预测能力,能够解决大量的问题,而且无需对数据进行专门的准备。
朴素贝叶斯是一种简单但功能强大的预测建模算法,它包含两种概率,它们都可以通过训练数据直接计算出来:1)每类概率;2)给定每个x的值,每类的条件概率。当数据为实值时,通常假定有高斯分布,这样就可以简单地估计出概率。
KNN算法在整个训练集内搜索最相似的K个实例(近邻),计算出K个实例的输出变量,预测新的数据点。KNN需要大量的内存和空间来存储所有的数据,但计算(或学习)只在需要预测的情况下进行。能够随时更新和管理培训实例,保证预测的准确性。
LVQ(LVQ)是一种人工神经网络算法,它使您能够选择训练实例的数目,并精确地了解这些实例应该是什么样的。然后,通过计算每个码本向量与新数据实例之间的距离,找到最相似的近邻。再将最佳匹配单元的分类值作为预测结果。
超面是指将输入变量空间分割成的直线,超平面与最近的数据点之间的距离称为间隔,这两类最佳或最佳超平面具有最大间隔。事实上,优化算法是用来求最大间隔的系数。
Bagging是对数据样本进行数量估计的有力的统计方法。从训练数据中提取多个样本,然后建立数据模型。如果您需要预测新数据,那么每一个模型都进行预测,并将所有预测值平均起来以更好地估计出实际的输出值。
随机森林是对“随机森林”方法的一种改进,在随机森林方法中,决策树引入了随机性,而非最优分割点。对于每一个数据样本所创建的模型和其他方法都有差异,这使得对实际输出值的估计更加准确。