常用的十大机器学习算法介绍

作者：王抒伟,机器学习中，有一个称为“ No Free Lunch ”的定理。简单来说，与监督学习特别相关的这个定理，它指出没有万能算法，就是用一个算法能很好地解决每个问题。
例如，不能说神经网络总是比决策树更好，反之亦然。有许多因素在起作用，例如数据集的大小和结构。
那么，如果我遇到一个问题，首先应该尝试多种不同的算法来解决问题，同时使用保留的“测试集”数据评估绩效并选择最优的那个算法，然后GitHub 搜索最优代码修改哈哈哈哈。
当然，如果需要打扫房屋，可以使用吸尘器、扫帚或拖把。你不会用铲子吧？
所以尝试的算法必须适合要解决的问题，这才是选择正确的机器学习任务的来源。
常用的十大机器学习算法介绍 (https://ic.work/) AI 人工智能第1张
基础,有一个通用原则是所有用于预测建模的受监督机器学习算法的基础。
机器学习算法被描述为学习目标函数，该函数最好将输入变量映射到输出变量：Y = f,这是一个简单的学习任务，我们想在给定新的输入变量的情况下，对进行预测。但是不知道函数。
机器学习的最常见类型是学习映射Y = f可以对新X预测到Y，目标是尽可能进行最准确的预测。
对于初入机器学习领域，没有机器学习基础知识的新手，我会对常用的十大机器学习算法做简单介绍。
1. 线性回归,线性回归可能是统计和机器学习中最著名和最易理解的算法之一。
主要与最小化模型的误差或做出尽可能准确的预测有关，但以可解释性为代价。我们将从许多不同领域中学习。
线性回归的表示法是一个方程，该方程通过找到称为系数，来描述输入变量与输出变量之间关系的线。
常用的十大机器学习算法介绍 (https://ic.work/) AI 人工智能第2张
例如：y = B0 + B1 * x 卧槽，这不是一次函数吗？哈哈,给定输入x，我们将预测y，线性回归学习算法的目标是找到系数B0和B1的值, 例如用于普通最小二乘法和梯度下降优化的线性代数解。
2. LOGISTIC回归,逻辑回归是机器学习从统计领域“借”的另一种技术。它是二分类问题的首选方法。
Logistic回归类似于线性回归，因为目标是找到权重每个输入变量的系数的值。与线性回归不同，输出的预测使用称为对数函数的非线性函数进行变换。
逻辑函数看起来像一个大S，它将任何值转换为0到1的范围。因为我们可以将规则应用于逻辑函数的输出为0和1并预测类别值。
常用的十大机器学习算法介绍 (https://ic.work/) AI 人工智能第3张
与线性回归一样，当去除与输出变量无关的属性以及相关的属性时，逻辑回归的效果更好。这是一个快速学习二进制分类问题并有效的模型,3. 线性判别分析,Logistic回归是传统上仅限于两类分类问题的分类算法。如果是多分类，则线性判别分析算法就是很重要的算法了。
LDA的表示非常简单，它由数据的统计属性组成，这些属性是针对每个类别计算的。对于单个输入变量，这包括>
每个类别的平均值。
计算所有类别的方差, 常用的十大机器学习算法介绍 (https://ic.work/) AI 人工智能第4张
通过为每个类别计算一个区分值并为具有最大值的类别进行预测来进行预测。
该算法的前提是：数据具有高斯分布，因此最好在操作之前从数据中删除异常值。
4. 分类和回归树,决策树是用于预测建模机器学习的重要算法类型。
决策树模型的表示形式是二叉树。这是来自算法和数据结构的二叉树，没有什么花哨的。每个节点代表一个输入变量和该变量的分割点。
常用的十大机器学习算法介绍 (https://ic.work/) AI 人工智能第5张
树的叶节点包含用于进行预测的输出变量。通过遍历树的拆分直到到达叶节点并在该叶节点输出类值来进行预测。
树学习速度很快，做出预测的速度也非常快。它们对于许多问题通常也很准确，不需要为数据做任何特殊预处理。
5-朴素贝叶斯,朴素贝叶斯是一种简单但功能强大的预测建模算法。
该模型由两种类型的概率组成，可以直接从您的训练数据中计算出：
1）每个类别的概率；
2）给定每个x值的每个类别的条件概率。
开始计算，概率模型可用于使用贝叶斯定理对新数据进行预测。当你的数据是实值时，通常会假设一个高斯分布，以便可以轻松地估计这些概率。
常用的十大机器学习算法介绍 (https://ic.work/) AI 人工智能第6张
朴素贝叶斯之所以被称为朴素，是因为它假定每个输入变量都是独立的。这是一个很强的假设，对于真实数据来说是不现实的，尽管如此，该技术对于大量复杂问题非常有效。
6 - K近邻,KNN算法非常简单且非常有效。KNN的模型表示是整个训练数据集。简单吧？,通过搜索整个训练集中的K个最相似实例并汇总这K个实例的输出变量，可以对新数据点进行预测。
对于回归问题，这可能是平均输出变量，对于分类问题，这可能是最常见的类别值。
诀窍在于如何确定数据实例之间的相似性。如果您的属性都具有相同的比例，最简单的方法是使用欧几里得距离，您可以根据每个输入变量之间的差异直接计算一个数字。
常用的十大机器学习算法介绍 (https://ic.work/) AI 人工智能第7张
KNN可能需要大量内存或空间来存储所有数据，因为它把所有数据都遍历了。您还可以随着时间的训练数据，以保持预测的准确性。
距离或紧密度的概念可能会分解为非常高的维度，这可能会对问题的算法性能产生负面影响。所以对于数据的输入就至关重要。
7- 矢量化学习,K最近的缺点是需要整个训练数据集。学习向量量化算法是一种人工神经网络算法，可让选择要需要的训练实例数量。
常用的十大机器学习算法介绍 (https://ic.work/) AI 人工智能第8张
LVQ的表示形式是向量的集合。这些是在最开始开始时随机选择的，适用于在学习算法的多次迭代中最好地总结训练数据集。
学习之后，可以像使用K近邻一样，使用数据进行预测。通过计算每个向量与新数据实例之间的距离，可以找到最相似的数据向量。然后返回最佳匹配的类值作为预测。记得数据归一化，获得的效果更好。
8-支持向量机,支持向量机可能是最受欢迎的机器学习算法之一。
超平面是分割输入变量空间的线。
在SVM中，选择一个超平面以按类别最好地分隔输入变量空间中的点。
在二维图中，您可以将其可视化为一条线，并假设所有输入点都可以被这条线完全隔开。SVM学习算法找到超平面对类进行最佳分离的系数。
常用的十大机器学习算法介绍 (https://ic.work/) AI 人工智能第9张
超平面和最近的数据点之间的距离称为边距。可以将这两个类别分开的最佳或最佳超平面是边距最大的线。
仅这些点与定义超平面和分类器的构造有关。这些点称为支持向量。
在实践中，使用优化算法来找到使余量最大化的系数的值。
SVM可能是功能最强大的即用型分类器之一，使用频率很高。
9-BAGGING和随机森林,随机森林是最流行，功能最强大的机器学习算法之一。这是一种称为Bootstrap聚类或BAGGING的集成机器学习算法。
您需要对数据进行大量采样，计算平均值，然后对所有平均值取平均值，以便更好地估算真实平均值。
在bagging中，使用相同的方法，但用于估计整个统计模型。获取训练数据的多个样本，然后为每个数据样本构建模型。当你需要对新数据进行预测时，每个模型都将进行预测，并对预测取平均值以对真实输出值进行更好的估计。
常用的十大机器学习算法介绍 (https://ic.work/) AI 人工智能第10张
随机森林是对这种方法的一种调整，在该方法中将创建决策树，不是选择最佳的拆分点。
因此，为每个数据样本创建的模型与原先的模型相比，差异更大。将他们的预测结合起来可以更好地估计真实的基础输出值。

Boosting是一种集成技术，尝试从多个弱分类器创建强分类器。这是通过从训练数据构建模型，然后创建第二个模型来尝试纠正第一个模型中的错误来完成的。添加模型，直到完美预测训练集或添加最大数量的模型为止。
AdaBoost是为二进制分类开发的第一个真正成功的增强算法。这是了解增强的最佳起点。现代的增强方法基于AdaBoost，最著名的是随机梯度增强机.,具体细节可以看这个视频.,AdaBoost与决策树一起使用。
创建第一棵树后，将在每个训练实例上使用该树的性能来加权要创建的下一棵树应注意每个训练实例的关注程度。
难以预测的训练数据的权重更高，而易于预测的实例的权重更低。依次创建模型，每个模型都会更新训练实例上的权重，这些权重会影响序列中下一棵树执行的学习。构建完所有树之后，对新数据进行预测，并根据训练数据的准确性对每棵树的性能进行加权。
由于该算法在纠正错误方面投入了很多精力，因此删除异常值和数据去噪非常重要。

常用的十大机器学习算法介绍

相关推荐

伟测集成电路芯片测试基地竣工，晶圆级与成品测试项目全面启动。

俄罗斯光刻机突破，350nm技术成功实现，引领科技新篇章。

中国团队突破，全可编程拓扑光子芯片研制成功，引领科技新潮流。

上海新政力推人工智能、算力芯片，科技新风向，不容错过！

美国拟限AI大模型出口，全球科技格局生变，速览最新动态！

博世2024传感器新品：SCS智能互联与两大创新系列，引领行业变革。

OpenAI发布AI图片检测工具，准确率98%，并研发AI音频水印，引领新潮流。

AI医院小镇登陆清华，AI医生超人类，数天诊治万人，快来体验未来医疗！

谷歌AlphaFold 3预测生命分子，登Nature，免费开放，加速科研亿年！

OpenAI掌门人谈AI：末日说夸张，对技术革命持乐观审慎态度。

推荐

TrendForce集邦咨询: 预估2025年笔电品牌出货成长率将下修至1.4%

黄仁勋中国行的背后，AI芯片暗战与英伟达生存博弈

国民技术发布国内首款Arm® Cortex®M7+M4双核异构MCU 面向具身智能机器人

让英特尔再次伟大，新CEO推动18A提前量产，14A已在路上

北京机器人传感器公司金钢科技数千万元Pre

晶振在网通应用增光添彩：中国移动实现数字乡村大升级

光子 AI 处理器的核心原理及突破性进展

一文解析电磁场与电磁波的区别

解决续航、网速痛点，Wi 7 PA杀入AI眼镜

15万车型也能有车规SiC！2025年慕展6家厂商新品亮点大揭秘

最近更新

芯驰科技与Arteris深化合作

戴尔PowerEdge R770服务器的性能测试

光庭信息与芯驰科技签署战略合作协议

京东方发布2025年第一季度报告

中科曙光DeepAI深算智能引擎全面支持Qwen3

中微爱芯亮相第21届家电电源与智能控制技术研讨会

中科曙光亮相第八届数字中国建设峰会

RDK全系赋能！点猫科技与地瓜机器人共建具身智能大中小贯通培养闭环要闻

魔视智能携手德州仪器亮相2025慕尼黑上海电子展

曙光存储亮相2025 IT市场年会