数据预处理是建立机器学习模型的首步,对最终结果有决定性的作用:如果你的数据集没有完成数据清洗和预处理,那么你的模型很可能也不会有效——就是这么简单。人们通常认为,数据预处理是一个非常枯燥的部分。但它就是「做好准备」和「完全没有准备」之间的差别,也是表现专业和业余之间的差别。就像为度假做好事先准备一样,如果你提前将行程细节确定好,就能够预防旅途变成一场噩梦。清理数据应该是数据科学或机器学习工作流的首步。如果没有清晰的数据,你将很难看到探索中真正重要的部分。一旦你最终开始训练ML模型,那么训练它们就会变得不必要地更具挑战性。主要的一点是,如果你希望最大限度地利用数据,那么它应该是干净的。