Scipy.stats:https://docs.scipy.org/doc/scipy/reference/stats.html
statsmodels:http://www.statsmodels.org/stable/py-modindex.html
DataFrame:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html#pandas.DataFrame
sklearn:http://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model
Matplotlib subplot ax: https://matplotlib.org/api/axes_api.html
Seaborn https://seaborn.pydata.org/api.html
py-Bokeh作图包:http://bokeh.pydata.org/en/latest/docs/user_guide.html
df = pd.read_csv('data.csv', encoding='utf-8') df.to_csv('data.csv')
R
df<-read.table("save.dat") df<-read.csv("file.csv") write.table
Name | Python | R | 备注 |
---|---|---|---|
统计描述·describe | stats.describe | summary() misc包describe() psych包describe() pastecs包stat.desc() | |
算数均数·tmean | stats.tmean | ||
方差·variance | stats.tvar | ||
标准差·standard deviation | stats.tstd | ||
标准误·sem | stats.tsem | ||
变异系数·variation | stats.variation | ||
几何均数·gmean | stats.gmean | ||
贝叶斯均数 | stats.bayes_mvs | ||
调和平均数·hmean | stats.hmean | ||
减尾后均数·trim_mean | stats.trim_mean | ||
峰度·kurtosis | stats.kurtosis | ||
偏度·skewness | stats.skew | ||
查找重复值 | stats.find_repeats | ||
双减尾 | stats.trimboth | ||
单减尾 | stats.trim1 |
Name | Python | R | 备注 |
---|---|---|---|
normaltest | stats.normaltest | ||
Shapiro-Wilk test for normality | stats.shapiro | 正态性 | |
Kolmogorov-Smirnov test·KS检验 | stats.kstest | 分布检验 需要连续分布资料 | |
stats.ks_2samp | 比较分布 | ||
Anderson-Darling test | stats.anderson | 修改版的KS检验 | |
stats.anderson_ksamp | |||
kurtosistest | stats.kurtosistest | ||
skewtest | stats.skewtest | ||
O’Brien transform 方差齐性 | stats.obrientransform | ||
Bartlett’s test for equal variances | stats.bartlett | ||
Levene test for equal variances | stats.levene | 显著非正态时 | |
Jarque-Bera | stats.jarque_bera | ||
Fligner-Killeen test for equality of variance | stats.fligner |
Name | 名称 | Python | R | 备注 |
---|---|---|---|---|
Student's t-test | t检验 | stats.ttest_1samp | ||
stats.ttest_ind | ||||
stats.ttest_ind_from_stats | ||||
stats.ttest_rel | ||||
ANOVA | 方差分析 | stats.f_oneway | 独立、正态、方差齐性 | |
方差不齐的多组比较 | heteroskedasticalter | |||
chisquare | 卡方检验 | stats.chisquare | ||
chi2_contingency | 列联表 | stats.chi2_contingency | ||
Fisher exact test 2×2 | stats.fisher_exact | |||
friedmanchisquare | stats.friedmanchisquare | |||
combine_pvalues | 合并p值 | stats.combine_pvalues | ||
pearsonr | 皮尔逊相关系数 | stats.pearsonr | ||
pointbiserialr | stats.pointbiserialr | |||
linregress | 线性最小二乘回归 | stats.linregress | ||
rankdata | stats.rankdata | |||
Wilcoxon signed-rank test | stats.wilcoxon | |||
Wilcoxon two samples | stats.ranksums | 连续分布 | ||
mannwhitneyu | stats.mannwhitneyu | 连续分布 | ||
spearmanr | 斯皮尔曼等级相关 | stats.spearmanr | ||
kendalltau | stats.kendalltau | |||
weightedtau | stats.weightedtau | |||
tiecorrect | U/KW检验校正 | stats.tiecorrect | ||
Kruskal-Wallis H-test | stats.kruskal | 非参版方差分析 | ||
Bernoulli experiment | 伯努利试验 | stats.binom_test | ||
Mood’s median test | 中位数检验 | stats.median_test | ||
Mood’s test for equal scale parameters | stats.mood | |||
Box-Cox | ||||
Wasserstein distance | stats.wasserstein_distance | |||
energy distance | stats.energy_distance |
http://www.statsmodels.org/stable/stats.html#module-statsmodels.stats.multitest
statsmodels.sandbox.stats.multicomp.multipletests
statsmodels.sandbox.stats.multicomp.MultiComparison
方法比较http://www.medsci.cn/article/show_article.do?id=73743429933
Python post hoc包:https://github.com/maximtrp/scikit-posthocs
|两两比较|LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法|
1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以, 就是效率没有pearson相关系数高。 2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。 3.两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。 用pearson处理的数据,必须满足一下条件:成对数据、连续、整体是正态分布的。 其实, Spearman 和Pearson相关系数在算法上完全相同. 只是PEARSON相关系数是用原来的数值计算积差相关系数, 而SPEARMAN是用原来数值的秩次计算积差相关系数.
数据是否线性 | |
方差齐不齐 | Satterthwate Wilcoxon |
分布正态否 | Bonferroni法校正P值 Wilcoxon检验 Fridman |
多组完全随机 | Kruscal-Wallis |
Fisher最小显著差异法(Fisher's Least Significant Difference test ) 学生t检验(Student's t-test) 曼-惠特尼 U 检定(Mann-Whitney U) 回归分析(regression analysis) 相关性(correlation) 皮尔森积矩相关系数(Pearson product-moment correlation coefficient) 史匹曼等级相关系数(Spearman's rank correlation coefficient ) 卡方分布(chi-square )