1)K值的选择:K值的选择会对算法的结果产生重大影响。K值较小意味着只有与输入实例较近的训练实例才会对预测结果起作用,但容易发生过拟合;如果 K 值较大,优点是可以减少学习的估计误差,但缺点是学习的近似误差增大,这时与输入实例较远的训练实例也会对预测起作用,使预测发生错误。在实际应用中,K 值一般选择一个较小的数值,通常采用交叉验证的方法来选择最优的 K 值。随着训练实例数目趋向于无穷和 K=1 时,误差率不会超过贝叶斯误差率的2倍,如果K也趋向于无穷,则误差率趋向于贝叶斯误差率。
改进2:将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成反比(1/d),即和该样本距离小的邻居权值大,称为可调整权重的K最近邻居法WAKNN(weighted adjusted K nearestneighbor)。但WAKNN会造成计算量增大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。