Skip to main content

Table 2 Per-column error metrics for each algorithm in each missing data scenario

From: Evaluation of different approaches for missing data imputation on features associated to genomic data

MCAR
  KNN RF Amelia Mice MI Mean
Feature MAE RMSE MAE RMSE MAE RMSE MAE RMSE MAE RMSE MAE RMSE
CADD 0.11 0.14 0.10 0.12 0.15 0.19 0.15 0.19 0.16 0.20 0.21 0.25
DANN 0.06 0.12 0.06 0.11 0.13 0.17 0.08 0.17 0.14 0.19 0.12 0.18
FATH 0.06 0.11 0.05 0.08 0.13 0.16 0.07 0.13 0.13 0.17 0.32 0.37
fitCons 0.08 0.11 0.06 0.09 0.13 0.16 0.11 0.16 0.13 0.17 0.11 0.15
MuT 0.11 0.18 0.11 0.17 0.19 0.25 0.13 0.25 0.20 0.26 0.26 0.28
GERP 0.06 0.09 0.06 0.09 0.11 0.14 0.09 0.14 0.11 0.14 0.13 0.18
PP7 0.04 0.07 0.04 0.07 0.07 0.09 0.06 0.10 0.07 0.10 0.09 0.11
PP20 0.04 0.06 0.03 0.05 0.06 0.08 0.05 0.08 0.06 0.08 0.07 0.09
PC7 0.16 0.24 0.15 0.23 0.25 0.32 0.19 0.33 0.26 0.33 0.32 0.37
PC20 0.17 0.25 0.17 0.24 0.26 0.34 0.21 0.35 0.28 0.35 0.35 0.40
SiPhy 0.08 0.11 0.07 0.10 0.13 0.17 0.13 0.17 0.14 0.17 0.15 0.18
GWAVA 0.10 0.12 0.08 0.11 0.14 0.17 0.14 0.18 0.15 0.19 0.11 0.13
Kaviar 0.02 0.08 0.02 0.07 0.08 0.12 0.03 0.11 0.09 0.12 0.03 0.10
d_rf 0.09 0.12 0.08 0.10 0.12 0.16 0.13 0.16 0.13 0.16 0.17 0.20
d_svm 0.05 0.06 0.03 0.04 0.08 0.10 0.06 0.09 0.08 0.11 0.21 0.23
MNAR
  KNN RF Amelia Mice MI Mean
CADD 0.11 0.14 0.10 0.12 0.16 0.20 0.15 0.20 0.16 0.21 0.21 0.25
DANN 0.06 0.12 0.06 0.12 0.14 0.18 0.08 0.17 0.15 0.19 0.12 0.18
d_rf 0.09 0.12 0.09 0.12 0.13 0.16 0.13 0.16 0.13 0.16 0.17 0.20
d_svm 0.08 0.11 0.08 0.11 0.12 0.16 0.11 0.15 0.12 0.16 0.21 0.23
MAR
  KNN RF Amelia Mice MI Mean
CADD 0.11 0.14 0.09 0.12 0.15 0.19 0.16 0.20 0.16 0.20 0.21 0.25
DANN 0.06 0.12 0.06 0.11 0.13 0.17 0.08 0.17 0.14 0.19 0.12 0.18
d_rf 0.09 0.12 0.08 0.10 0.12 0.16 0.13 0.16 0.13 0.16 0.17 0.20
d_svm 0.05 0.06 0.03 0.04 0.08 0.10 0.06 0.09 0.08 0.10 0.21 0.23
  1. FATH corresponds to FATHMM, MuT to MutationTaster, PP7 to phyloP7, PP20 to phyloP20, PC7 to phastCons7, PC20 to phastCons20, d_rf to dummy_rf and d_svm to dummy_svm. Underlined is the best performing method for each feature