目录

数据整理

相加模型交互作用
特征工程总结https://zhuanlan.zhihu.com/p/40231966
https://www.zhihu.com/question/28641663/answer/110165221
https://zhuanlan.zhihu.com/p/51131210
https://zhuanlan.zhihu.com/p/62773597

异常值处理

Exceptional Data | Outlier rejection | Anomaly detection | outlier detection
http://eprints.whiterose.ac.uk/767/1/hodgevj4.pdf

名称 英文 条件 简要说明
拉依达准则 Pauta? 不能检验样本量较小(显著性水平为0.1时,n必须大于10)的情况 离均差>3倍标准差σ则剔除
肖维勒准则 Chauvenet's criterion n无穷大时,该准则失效
格拉布斯准则 Grubbs' test 数据正态分布、标准差未知;可以检验较少的数据,常用于n<100;国际上常推荐 残差绝对值与标准差σ比较
狄克逊准则 Dixon's Q test 只存在一个异常数据时效果好
罗马诺夫斯基准则(t检验)
Peirce's criterion
奈尔检验法 Nair

论文:粗大误差四种判别准则的比较和应用

3≤n<25狄克逊准则 或 格拉布斯准则
25≤n≤185格拉布斯准则 或 肖维勒准则
n>185拉依达准则

不平衡问题

SMOTE
过抽样
欠抽样

编码

变换

Log
Box-Cox