华宇娱乐-华宇娱乐注册登录

071-65686745

在线客服| 微信关注
当前位置: 首页 > 后期工艺 > 纸袋布袋

人工智能之K近邻算法(KNN)【华宇娱乐注册登录】


华宇娱乐

华宇娱乐-人工智能机器学习的算法内容,可以参考微信官方账号“科技优化生活”相关文章。人工智能的机器学习主要有三大类:1)分类;2)回归;3)聚类。今天,我们重点讨论K-邻接(KNN)算法。

K-最近邻(KNN)算法,又称K-最近邻算法,由Cover和Hart于1968年明确提出,是机器学习算法中比较成熟的算法之一。K-邻接算法使用的模型本质上对应于特征空间的区分。KNN算法不仅可以用于分类,还可以用于再入。

KNN概念:K邻接算法KNN是一个等价的训练数据集。对于一个新的输出实例,训练数据集侧重于寻找与该实例最接近的K个实例(K族),而这K个实例大部分属于某个类,因此输出实例被归入这个类。

如果特征空间中k个最近的样本大部分属于某一类,那么这个样本也属于这一类。K-邻接算法使用的模型本质上对应于特征空间的区分。通俗地说就是“物以类聚,人以群分”。

分类策略是“少数服从多数”。算法描述:在KNN未指明的训练过程中,测试时计算测试样本与所有训练样本的距离,根据最近K个训练样本的类别,通过多数投票进行预测。算法描述如下:输出:训练数据集t={(x1,y1),(x2,y2)、(xn,yn)},其中xiRn,yi {C1,c2,CK}和测试数据X输入:类1实例X属于哪一类)根据等价性2)根据Nk(x)中的分类规则(如多数投票)确认X的类别Y:核心思想:当无法判断当前待分类点在未知分类中属于哪一类时,根据统计学理论,取决于其周围家族的权重,不属于权重较大的类别。kNN的输出是测试数据和训练样本的数据集,输入是测试样本的类别。

在KNN算法中,自由选择的家庭是被精确分类的对象。在分类决策中,KNN算法只需要根据一个或几个最近样本的类别对样本的类别进行分类。

算法要素:KNN算法有三个基本要素:1)自由选择k值:自由选择k值不会对算法结果产生根本性影响。k值小,意味着只有更接近输出例子的训练例子,在预测结果中不会起到作用,但更容易再次发生;k值小的话,好处是可以增加自学的估计误差,缺点是可以减少自学的逼近误差。

这时候远离输出实例的训练实例就起不到预测的作用,预测又错了。在实际应用中,k的值一般可以自由选择较小的值。

一般来说,交叉检验的方法是自由选择k的拟合值,由于训练样本的数量趋于无穷大,k=1,误差率会高达贝叶斯误差率的2倍。如果k也趋于无穷大,则误差率趋于贝叶斯误差率。2)测距:Lp距离一般用于测距。当p=2时,就是欧氏距离。

在度量之前,应该对每个属性的值进行归一化,这有助于避免初始值域较小的属性权重过大。对于文本分类,余弦计算的相似度比欧氏距离更合适。3)分类决策规则:该算法中的分类决策规则往往是多数投票,即输出示例的k最近训练示例中的大多数类都要求输出示例的类别。

算法流程:1)规划数据,数据预处理。2)存储训练数据,用合适的数据结构测试元组。3)原始参数,如k. 4)保证一个优先级队列(长度k),距离由大到小,用于存储最近邻训练元组。

从训练元组中随机选择k个元组作为初始最近邻元组,分别计算测试元组与这k个元组之间的距离,标记训练元组并对距离现金优先级进行排队。5)迭代训练元组集,计算当前训练元组与测试元组的距离,从仅次于距离Lmax的优先级队列中扣除距离L。6)扩大对比。如果l >=lmax,则丢弃元组并迭代下一个元组。

如果l

8)测试元组集测试后,计算错误亲和度,然后重新训练不同值的原始K值,最终得到错误率大于该值的K值。该算法的优点:1)KNN原理上也依赖于无穷定理,但在类决策中只与极少数相邻样本有关。2)由于KNN方法主要依赖于周围环境有限的邻近样本,而不是判断类域的方法,所以对于类域重叠较多或重叠较多的样本集,KNN方法比其他方法更适合。

3)算法本身非常简单有效,精度高,不易出现异常值,更容易构造,需要估计参数。分类器不必用于训练集中的训练,训练时间复杂度为0。4)KNN分类的计算复杂度与训练中的文档数成正比,即如果训练中的文档总数为n,KNN的分类时间复杂度为O(n)。5)珍贵事件的适当分类。

6)特别适合多模态问题。对象有多个类别标签,kNN比SVM好。算法的缺点:1)当样本不平衡时,样本数量不能影响运算结果。

2)算法计算量小;3)可解释性差,无法获得决策树这样的规则。改进策略:KNN算法比以前提出得早。

随着其他技术的不断更新和完善,KNN算法逐渐显示出许多不足,于是出现了许多KNN算法的改进算法。算法改进的目标主要是两个方向:分类效率和分类效果。

改进1:通过寻找样本的k个最近的族,并将这些族的属性的平均值给样本,就可以得到样本的属性。改进2:给不同距离的族对样本的影响赋予不同的权重。比如权重与距离(1/d)成反比,即距离样本距离小的家庭人权值大,称为加权k最近家庭法wakNN(加权最近邻法)。但是WAKNN不会减少计算量,因为对于每一个要分类的文本,都必须计算它到所有未知样本的距离,然后才能找到它的K个最近邻。

改进3:预先编辑未知样本点(编辑技术),预先去除对分类不显著的样本(浓缩技术)。该算法仅限于对大样本的类域进行自动分类,而小样本的类域更容易产生误分类。考虑因素:构造K-邻接算法时,主要考虑的是如何在训练数据中搜索慢K-邻接,这在特征空间维数较大、训练数据容量较大时非常合适。

应用于场景:K-邻接算法还包括机器学习、字符识别、文本分类、图像识别等领域。结论:KNN K-邻接算法,又称K-最近邻算法,是机器学习研究的一个活跃领域。

最简单的暴力算法更适合小数据样本。K-邻接算法使用的模型本质上对应于特征空间的区分。KNN算法不仅可以用于分类,还可以用于再入。KNN算法广泛应用于机器学习、字符识别、文本分类、图像识别等人工智能领域。

本文来源:华宇娱乐注册登录-www.theatre-elixir.com

客户案例Customer case
  • 华宇娱乐|北京大岳咨询公司总经理金永祥参加包头市2016年PPP推荐会并作专题讲座
  • 赫尔佐格-德梅隆有争议的巴黎高楼项目获得许可_华宇娱乐注册登录
  • 【华宇娱乐】中国将首次在美国合建高铁 总投资127亿美元
  • 华宇娱乐注册登录:复合氨基酸无糖型营养液 氨基酸的作用大
  • 华宇娱乐注册登录-京津冀拟统一编制“十三五”规划
  • 华宇娱乐注册登录_中铁第四勘察设计院集团有限公司举办《劳动合同法》实操应对策略及劳动争议处理培训
  • 景观设计师Cornelia Hahn Oberlander赢得了Margolese国家生活设计奖:华宇娱乐注册登录
  • 华北电力设计院有限公司中标蒙西~晋中1000kV特高压交流工程线路【华宇娱乐】
  • 厨房防癌图:男多吃西红柿 女多吃胡萝卜_华宇娱乐
  • 办公室族当心:华宇娱乐注册登录