目录

描述与假设检验

CSV操作

Pandas.read_csv pandas.to_csv

df = pd.read_csv('data.csv', encoding='utf-8')
df.to_csv('data.csv')

R

df<-read.table("save.dat")
df<-read.csv("file.csv")
write.table

groupby操作

http://blog.csdn.net/shenshaoqiu/article/details/78888602

数据初始处理

Name Python R 备注
统计描述·describe stats.describe summary() misc包describe() psych包describe() pastecs包stat.desc()
算数均数·tmean stats.tmean
方差·variance stats.tvar
标准差·standard deviation stats.tstd
标准误·sem stats.tsem
变异系数·variation stats.variation
几何均数·gmean stats.gmean
贝叶斯均数 stats.bayes_mvs
调和平均数·hmean stats.hmean
减尾后均数·trim_mean stats.trim_mean
峰度·kurtosis stats.kurtosis
偏度·skewness stats.skew
查找重复值 stats.find_repeats
双减尾 stats.trimboth
单减尾 stats.trim1

分布检验

Name Python R 备注
normaltest stats.normaltest
Shapiro-Wilk test for normality stats.shapiro 正态性
Kolmogorov-Smirnov test·KS检验 stats.kstest 分布检验 需要连续分布资料
stats.ks_2samp 比较分布
Anderson-Darling test stats.anderson 修改版的KS检验
stats.anderson_ksamp
kurtosistest stats.kurtosistest
skewtest stats.skewtest
O’Brien transform 方差齐性 stats.obrientransform
Bartlett’s test for equal variances stats.bartlett
Levene test for equal variances stats.levene 显著非正态时
Jarque-Bera stats.jarque_bera
Fligner-Killeen test for equality of variance stats.fligner

假设检验

Name 名称 Python R 备注
Student's t-test t检验 stats.ttest_1samp
stats.ttest_ind
stats.ttest_ind_from_stats
stats.ttest_rel
ANOVA 方差分析 stats.f_oneway 独立、正态、方差齐性
方差不齐的多组比较 heteroskedasticalter
chisquare 卡方检验 stats.chisquare
chi2_contingency 列联表 stats.chi2_contingency
Fisher exact test 2×2 stats.fisher_exact
friedmanchisquare stats.friedmanchisquare
combine_pvalues 合并p值 stats.combine_pvalues
pearsonr 皮尔逊相关系数 stats.pearsonr
pointbiserialr stats.pointbiserialr
linregress 线性最小二乘回归 stats.linregress
rankdata stats.rankdata
Wilcoxon signed-rank test stats.wilcoxon
Wilcoxon two samples stats.ranksums 连续分布
mannwhitneyu stats.mannwhitneyu 连续分布
spearmanr 斯皮尔曼等级相关 stats.spearmanr
kendalltau stats.kendalltau
weightedtau stats.weightedtau
tiecorrect U/KW检验校正 stats.tiecorrect
Kruskal-Wallis H-test stats.kruskal 非参版方差分析
Bernoulli experiment 伯努利试验 stats.binom_test
Mood’s median test 中位数检验 stats.median_test
Mood’s test for equal scale parameters stats.mood
Box-Cox
Wasserstein distance stats.wasserstein_distance
energy distance stats.energy_distance

多重比较

http://www.statsmodels.org/stable/stats.html#module-statsmodels.stats.multitest
statsmodels.sandbox.stats.multicomp.multipletests
statsmodels.sandbox.stats.multicomp.MultiComparison

方法比较http://www.medsci.cn/article/show_article.do?id=73743429933
Python post hoc包:https://github.com/maximtrp/scikit-posthocs

|两两比较|LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法|

方法选择

1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,
  就是效率没有pearson相关系数高。
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3.两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。
用pearson处理的数据,必须满足一下条件:成对数据、连续、整体是正态分布的。

其实, Spearman 和Pearson相关系数在算法上完全相同. 只是PEARSON相关系数是用原来的数值计算积差相关系数, 而SPEARMAN是用原来数值的秩次计算积差相关系数.

方法选用标准

数据是否线性
方差齐不齐Satterthwate Wilcoxon
分布正态否Bonferroni法校正P值 Wilcoxon检验 Fridman
多组完全随机Kruscal-Wallis
Fisher最小显著差异法(Fisher's Least Significant Difference test )
学生t检验(Student's t-test)
曼-惠特尼 U 检定(Mann-Whitney U)
回归分析(regression analysis)
相关性(correlation)
皮尔森积矩相关系数(Pearson product-moment correlation coefficient)
史匹曼等级相关系数(Spearman's rank correlation coefficient )
卡方分布(chi-square )

写作

卡方检验