======数据整理 ====== [[stat:2datacleaning:plusmodel]]\\ 特征工程总结[[https://zhuanlan.zhihu.com/p/40231966]]\\ [[https://www.zhihu.com/question/28641663/answer/110165221]]\\ [[https://zhuanlan.zhihu.com/p/51131210]]\\ [[https://zhuanlan.zhihu.com/p/62773597]]\\ ====异常值处理==== Exceptional Data | Outlier rejection | Anomaly detection | outlier detection\\ [[http://eprints.whiterose.ac.uk/767/1/hodgevj4.pdf]] ^ 名称 ^ 英文 ^ 条件 ^ 简要说明 ^ | 拉依达准则 | Pauta? | 不能检验样本量较小(显著性水平为0.1时,n必须大于10)的情况 | 离均差>3倍标准差σ则剔除 | | 肖维勒准则 | Chauvenet's criterion | n无穷大时,该准则失效 | | | 格拉布斯准则 | Grubbs' test | 数据正态分布、标准差未知;可以检验较少的数据,常用于n<100;国际上常推荐 | 残差绝对值与标准差σ比较 | | 狄克逊准则 | Dixon's Q test | 只存在一个异常数据时效果好 | | | 罗马诺夫斯基准则(t检验) | | | | | | Peirce's criterion | | | | 奈尔检验法 | Nair | | | ===论文:粗大误差四种判别准则的比较和应用=== |3≤n<25|狄克逊准则 或 格拉布斯准则 | |25≤n≤185|格拉布斯准则 或 肖维勒准则| |n>185|拉依达准则| ====不平衡问题==== >SMOTE >过抽样 >欠抽样 ====编码==== ====变换==== Log\\ Box-Cox\\