模式识别考点

一、简答题

k值可以根据领域知识来选择。例如，如果知道数据集中有多少个类别，就可以选择相应的k值。肘部法则和轮廓系数法也是常用的方法。

定义：是通过计算机用数学技术方法来研究模式的自动处理和判读。是对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程，是信息科学和人工智能的重要组成部分。

意义：人们为了掌握客观事物，按事物相似的程度组成类别。模式识别的作用和目的就在于面对某一具体事物时将其正确地归入某一类别。

预处理是以去除噪声、加强有用的信息为目的, 并对输入测量仪器或其他因素所造成的退化现象进行复原的过程。

预处理一般有两种情况:

一是使数据的质量更好，比如用一些数字信号处理的方法去除信号中的噪声, 或者对一幅模糊的图像进行图像增强等, 确保有利于后期的模式识别工作；

另一种预处理是样本集的预处理, 比如样本集中异常值的剔除、类别的合并或分裂等。这一工作一般可以根据领域的专门知识进行, 也可以采用模式识别中的一些技术, 比如在进行后续工作之前先对样本集进行一次聚类分析。

第一，最大似然方法预测时使用θ的点估计，贝叶斯方法使用θ的全分布。即最大似然求出最可能的θ值，而贝叶斯则是求解θ的分布。

第二，贝叶斯推断还引入了先验，通过先验和似然来求解后验分布，而最大似然直接使用似然函数，通过最大化其来求解。

支持向量机（support vector machines）是一种二分类模型，它的目的是寻找一个超平面来对样本进行分类，分类的原理是间隔最大化，最终转化为一个凸二次规划问题来求解，由简至繁的模型包括：

当训练样本线性可分时，通过硬间隔最大化，学习一个线性可分支持向量机；

当训练样本近似线性可分时，通过软间隔最大化，学习一个线性可分的支持向量机；

当训练样本线性不可分时，通过核函数和软间隔最大化，学习一个非线性支持向量机；

不可以

对称性问题： 如果所有权重都初始化为相同的值，每个神经元学到的梯度将是相同的，导致所有神经元对应的权重在训练中都更新为相同的值，进而失去网络的表达能力。
梯度更新问题： 初始化所有权重为相同的值会导致反向传播中每个权重都接收相同的梯度，这样在权重更新时会使得所有权重按相同的步长进行更新，而不论它们在模型中的位置。

梯度消失： Sigmoid函数在其输入非常大或非常小的情况下，导数趋于零，导致梯度消失问题。在反向传播时，梯度趋近于零，使得权重更新变得非常缓慢，导致训练过程变得很慢。
输出不以零为中心： Sigmoid的输出范围是(0, 1)，因此其输出不以零为中心。这可能导致一些神经元在训练过程中出现偏置，从而使得某些神经元始终保持非常小的梯度。
幂运算相对耗时。

k近邻（k-Nearest Neighbors，简称k-NN）是一种基本的监督学习算法，主要用于分类问题。其基本思想是通过测量不同样本之间的距离，将一个新样本分配给距离最近的k个已知类别样本中最常见的类别。k-NN方法的简述如下：