大致了解

各填充方式的实现原理请查看后面的详细API文档

1.完全随机缺失（MissingCompletelyatRandom）

某个变量是否缺失与它自身的值无关，也与其他任何变量的值无关。例如，由于测量设备出故障导致某些值缺失。

适用算法：简单填充，多重插补

2.随机缺失（MissingatRandom）

在控制了其他变量已观测到的值后，某个变量是否缺失与它自身的值无关。例如，人们是否透露收入可能与性别、教育程度、职业等因素有关系。

如果这些因素都观测到了，而且尽管收入缺失的比例在不同性别、教育程度、职业的人群之间有差异，但是在每一类人群内收入是否缺失与收入本身的值无关，那么收入就是随机缺失的。

适用算法：几乎都适用

3.非随机缺失（MissingNotatRandom）

即使控制了其他变量已观测到的值，某个变量是否缺失仍然与它自身的值有关。例如，在控制了性别、教育程度、职业等已观测因素之后，如果收入是否缺失还依赖于收入本身的值，那么收入就是非随机缺失的。

适用算法：多重插补，EM，knn

下面来看一下各填充方法在不同数据集上的表现吧：

这些是完整的数据，我将他们进行数据随机缺失处理后用于模型的实验及评估，大约有%10的数据是缺失的，每个特征都包含不同程度的数据缺失。

全部数据都为连续型数据，评价函数采用RMSE 即均方根误差，红线代表所有误差的平均值

可以看到的是，EM算法和MICE在各个数据集上都有不俗的表现。而Iterforest对于各变量之间相关性较大的数据集来说，表现最为优越。