机器学习与数据挖掘中的十大经典算法

本文摘要:数年前,有人动议在机器学习与数据挖掘领域中找到十大算法,即创建该领域算法的一个top10。后在该领域投票决定部分专家学者,经他们奖提名、汇总和检验,在分类,聚类,图挖出,关联分析等领域共计投票决定18个算法。对这18个算法在更加普遍的领域内,一人一票,最后得出结论了其中的10个作为最后的算法。 应当说道,不受时间、经验、领域和参选人人数等诸多容许,选入的十大算法,不一定个个都是最杰出的;不受条件所限没选入的有些算法,也无法说道是很差的。下面所列这十大算法,供参考。

皇冠游戏网站

数年前,有人动议在机器学习与数据挖掘领域中找到十大算法,即创建该领域算法的一个top10。后在该领域投票决定部分专家学者,经他们奖提名、汇总和检验,在分类,聚类,图挖出,关联分析等领域共计投票决定18个算法。对这18个算法在更加普遍的领域内,一人一票,最后得出结论了其中的10个作为最后的算法。

应当说道,不受时间、经验、领域和参选人人数等诸多容许,选入的十大算法,不一定个个都是最杰出的;不受条件所限没选入的有些算法,也无法说道是很差的。下面所列这十大算法,供参考。  一、分类决策树算法C4.5  C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树,就是做到决策的节点间的的组织方式像一棵推倒栽树)核心算法ID3的改良算法,所以基本上理解了一半决策树构造方法就能结构它。决策树构造方法只不过就是每次自由选择一个好的特征以及分化点作为当前节点的分类条件。

  C4.5比起于ID3改良的地方有:  1、用信息增益亲率自由选择属性。  ID3自由选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3用于的是熵,一种不纯度度量准则,也就是熵的变化值,而C4.5用的是信息增益亲率。区别就在于一个是信息增益,一个是信息增益亲率。

  2、在树结构过程中展开剪枝,在结构决策树的时候,那些挂着几个元素的节点,不考虑到最差,不然更容易造成过拟。  3、能对非离散数据和不原始数据展开处置。  二、K平均值算法  K平均值算法(k-meansalgorithm)是一个聚类算法,把n个分类对象根据它们的属性分成k类(kn)。它与处置混合正态分布的仅次于希望算法相近,因为他们都企图寻找数据中的大自然聚类中心。

皇冠游戏网站

它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和大于。p=  近似于的k平均值算法早已被设计用作原始数据子集的计算出来。  从算法的展现出上来说,它并不确保一定获得全局拟合解法,最后解法的质量相当大程度上各不相同初始化的分组。

由于该算法的速度迅速,因此常用的一种方法是多次运营k平均值算法,自由选择拟合解法。  算法缺点是,分组的数目k是一个输出参数,不适合的k有可能回到较好的结果。另外,算法还假设均方误差是计算出来群组分散度的最佳参数。

  三、反对向量机算法  反对向量机(SupportVectorMachine)算法,OR为SVM,是一种監督式學習的方法,普遍用作统计资料分类以及重返分析中。  反对向量机归属于一般化线性分类器。这类分类器的特点是他们需要同时最小化经验误差与最大化几何边缘区,因此反对向量机也被称作仅次于边缘区分类器。

  Vapnik等人在多年研究统计资料自学理论基础上对线性分类器明确提出了另一种设计最佳准则。其原理也从线性可分想起,然后扩展到线性不可分的情况,甚至扩展到用于非线性函数中去。反对向量机是一种有很深理论背景的一种新方法。

  SVM的主要思想可以总结为两点:(1)它是针对线性可分情况展开分析,对于线性不可分的情况,通过用于非线性同构算法将较低维输出空间线性不可分的样本转化成为高维特征空间使其线性可分,从而使得高维特征空间使用线性算法对样本的非线性特征展开线性分析沦为有可能;(2)它基于结构风险最小化理论之上,在特征空间中建构拟合拆分超平面,使得自学器获得全局线性规划,并且在整个样本空间的希望风险以某个概率符合一定上界。


本文关键词:皇冠游戏网站,机器,学习,与,数据挖掘,中的,十大,经典,算法

本文来源:皇冠游戏网站-www.2asauce.com

Copyright © 2000-2023 www.2asauce.com. 皇冠游戏网站科技 版权所有   ICP备52115831号-7   XML地图   皇冠游戏(中国)有限公司官网