目前最流行的机器学习算法是什么?
想学习机器算法,从哪里入手?
监督学习
1.决策树:决策树是一种决策支持工具,以及所使用的决策及其可能的后果,包括随机事件的结果、树形图或资源消耗和效用的模型。
从商业决策的角度来看,决策树是人们在大多数时候必须选择是/否来评估做出正确决策的概率的问题。它让你以一种结构化和系统化的方式解决问题,从而得出合乎逻辑的结论。
2.朴素贝叶斯分类:朴素贝叶斯分类器是一种简单的概率分类器,基于贝叶斯定理,其特征具有强(朴素)独立性假设。
特征图像是方程-P(A | B)是后验概率,P(B | A)是似然,P(A)是拟先验概率,P(B)是预测先验概率。
一些现实世界的例子是:
判断邮件是否为垃圾邮件。
分类技术,新闻文章会有政治或体育氛围。
检查一篇表达积极或消极情绪的文章。
面部识别软件
3.普通最小二乘回归:如果你懂统计学,你可能听说过线性回归。最小二乘法是一种执行线性回归的方法。
您可以将线性回归视为通过点分布拟合直线的任务。有许多可能的策略可以做到这一点。“普通最小二乘法”策略是这样的——你可以画一条线,然后把每个数据点相加,测量点和线的垂直距离;对于距离的总和,拟合线将尽可能小。
线性意味着您使用的模型迎合数据,最小二乘法可以最小化线性模型误差。
4.逻辑回归:逻辑回归是一种强大的统计方法,它使用一个或多个解释变量来模拟二项式结果。它通过使用逻辑函数估计概率来度量分类的因变量与一个或多个自变量之间的关系,概率是累积的逻辑分布。
逻辑回归用在生活中;
信用评级
衡量营销活动的成功率
预测产品的收入。
有一天会发生地震吗?
5.支持向量机:SVM是一种二元分类算法。给定N维空间中的两类点,SVM生成(N-1)维超平面将这些点分成两组。
假设你在一张纸上有两种类型的点,可以线性分离。SVM会找一条直线,把这些点分成两类,尽可能远离所有这些点。
在尺度上,SVM解决的一些大问题(包括实现适当的修改)有:广告、人类基因剪接位点的识别、基于图像的性别检测、大规模图像分类。...
6.集成法:集成法是构造一组分类器的学习算法,然后对新的数据点对其预测进行加权投票进行分类。最初的集成方法是贝叶斯平均法,但更新的算法包括纠错输出编码、bagging和boosting。
那么集成方法是如何工作的,为什么它们比单一模型更好?
平衡偏向:如果平衡大量倾向民主党的选票和大量倾向共和党的选票,总会得到一个不那么偏向的结果。
减少方差:当大量模型的参考结果被聚合时,噪声将小于单个模型的单个结果。在金融领域,这叫分散投资)——原理——混合多种股票的投资组合,变化比个股少。
不太可能的过度拟合:如果你有一个不完全拟合的单一模型,你用一种简单的方式(平均、加权平均、逻辑回归)组合每个模型,那么过度拟合一般不会发生。
无监督学习
7.聚类算法:聚类是对一组对象进行分组的任务,使同一组(簇)中的对象比其他组中的对象更相似。
每个聚类算法都是不同的,例如:
基于质心的算法
基于连接的算法
基于密度的算法
概率;可能性
降维
神经网络/深度学习
8.主成分分析:PCA是利用正交变换将可能相关变量的观测值转换为线性不相关变量值作为主成分的一组统计过程。
PCA的一些应用包括压缩、数据简化、容易学习和可视化。请注意,在选择是否继续使用PCA时,领域知识非常重要。噪声数据的情况(PCA的所有成分都非常不同)是不适用的。
9.奇异值分解:在线性代数中,奇异值分解是实复矩阵的因式分解。对于给定的m * n矩阵m,有一个分解使得m = u σ v,其中u和v是酉矩阵,σ是对角矩阵。
PCA实际上是SVD的一个简单应用。在计算机视觉技术中,第一种人脸识别算法利用PCA和SVD将人脸表示为“特征脸”的线性组合,降维,然后通过简单的方法将人脸与身份进行匹配;虽然这种方法更复杂,但它仍然依赖于类似的技术。
10.独立分量分析:ICA是一种统计技术,用于揭示随机变量、测量值或信号集的隐藏因素。ICA定义了观测多元数据的生成模型,通常用作大样本数据库。
模型中假设数据变量是一些未知潜在变量的线性混合,混合系统也是未知的。假设潜变量为非高斯独立变量,称之为观测数据的独立分量。
ICA与PCA有关,但它是一种更强大的技术,可以在这些经典方法完全失效时找到潜在的源因素。它的应用包括数字图像、文档数据库、经济指标和心理测量。