描述与假设检验

在线运行R:https://rdrr.io/snippets/ R入门教程
 https://repl.it/languages/rlang
R 基础R常用代码
 https://rstudio.cloud/projects

Scipy.stats:https://docs.scipy.org/doc/scipy/reference/stats.html
statsmodels:http://www.statsmodels.org/stable/py-modindex.html
DataFrame:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html#pandas.DataFrame
sklearn:http://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model
Matplotlib subplot ax: https://matplotlib.org/api/axes_api.html
Seaborn https://seaborn.pydata.org/api.html
py-Bokeh作图包:http://bokeh.pydata.org/en/latest/docs/user_guide.html

CheatSheet：https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf

CSV操作

Pandas.read_csv pandas.to_csv

df = pd.read_csv('data.csv', encoding='utf-8')
df.to_csv('data.csv')

R

df<-read.table("save.dat")
df<-read.csv("file.csv")
write.table

groupby操作

http://blog.csdn.net/shenshaoqiu/article/details/78888602

数据初始处理

Name	Python	R
统计描述·describe	stats.describe	summary() misc包describe() psych包describe() pastecs包stat.desc()
算数均数·tmean	stats.tmean
方差·variance	stats.tvar
标准差·standard deviation	stats.tstd
标准误·sem	stats.tsem
变异系数·variation	stats.variation
几何均数·gmean	stats.gmean
贝叶斯均数	stats.bayes_mvs
调和平均数·hmean	stats.hmean
减尾后均数·trim_mean	stats.trim_mean
峰度·kurtosis	stats.kurtosis
偏度·skewness	stats.skew
查找重复值	stats.find_repeats
双减尾	stats.trimboth
单减尾	stats.trim1

分布检验

Name	Python	备注
normaltest	stats.normaltest
Shapiro-Wilk test for normality	stats.shapiro	正态性
Kolmogorov-Smirnov test·KS检验	stats.kstest	分布检验需要连续分布资料
Kolmogorov-Smirnov test·KS检验	stats.ks_2samp	比较分布
Anderson-Darling test	stats.anderson	修改版的KS检验
Anderson-Darling test	stats.anderson_ksamp
kurtosistest	stats.kurtosistest
skewtest	stats.skewtest

O’Brien transform 方差齐性	stats.obrientransform
Bartlett’s test for equal variances	stats.bartlett
Levene test for equal variances	stats.levene	显著非正态时
Jarque-Bera	stats.jarque_bera
Fligner-Killeen test for equality of variance	stats.fligner

假设检验

Name	名称	Python	备注
Student's t-test	t检验	stats.ttest_1samp
		stats.ttest_ind
		stats.ttest_ind_from_stats
		stats.ttest_rel
ANOVA	方差分析	stats.f_oneway	独立、正态、方差齐性
	方差不齐的多组比较	heteroskedastic alter
chisquare	卡方检验	stats.chisquare
chi2_contingency	列联表	stats.chi2_contingency
Fisher exact test 2×2		stats.fisher_exact
friedmanchisquare		stats.friedmanchisquare
combine_pvalues	合并p值	stats.combine_pvalues
pearsonr	皮尔逊相关系数	stats.pearsonr
pointbiserialr		stats.pointbiserialr
linregress	线性最小二乘回归	stats.linregress

rankdata		stats.rankdata
Wilcoxon signed-rank test		stats.wilcoxon
Wilcoxon two samples		stats.ranksums	连续分布
mannwhitneyu		stats.mannwhitneyu	连续分布
spearmanr	斯皮尔曼等级相关	stats.spearmanr
kendalltau		stats.kendalltau
weightedtau		stats.weightedtau
tiecorrect	U/KW检验校正	stats.tiecorrect
Kruskal-Wallis H-test		stats.kruskal	非参版方差分析
Bernoulli experiment	伯努利试验	stats.binom_test
Mood’s median test	中位数检验	stats.median_test
Mood’s test for equal scale parameters		stats.mood

Box-Cox
Wasserstein distance		stats.wasserstein_distance
energy distance		stats.energy_distance

多重比较

http://www.statsmodels.org/stable/stats.html#module-statsmodels.stats.multitest
statsmodels.sandbox.stats.multicomp.multipletests
statsmodels.sandbox.stats.multicomp.MultiComparison

方法比较http://www.medsci.cn/article/show_article.do?id=73743429933
Python post hoc包：https://github.com/maximtrp/scikit-posthocs

|两两比较|LSD检验，Bonferroni法，tukey法，Scheffe法，SNK法|

方法选择

1.连续数据，正态分布，线性关系，用pearson相关系数是最恰当，当然用spearman相关系数也可以，
  就是效率没有pearson相关系数高。
2.上述任一条件不满足，就用spearman相关系数，不能用pearson相关系数。
3.两个定序测量数据之间也用spearman相关系数，不能用pearson相关系数。
用pearson处理的数据，必须满足一下条件：成对数据、连续、整体是正态分布的。

其实, Spearman 和Pearson相关系数在算法上完全相同. 只是PEARSON相关系数是用原来的数值计算积差相关系数, 而SPEARMAN是用原来数值的秩次计算积差相关系数.

方法选用标准

数据是否线性
方差齐不齐	Satterthwate Wilcoxon
分布正态否	Bonferroni法校正P值 Wilcoxon检验 Fridman
多组完全随机	Kruscal－Wallis

Fisher最小显著差异法（Fisher's Least Significant Difference test ）
学生t检验(Student's t-test)
曼-惠特尼 U 检定（Mann-Whitney U）
回归分析（regression analysis）
相关性（correlation）
皮尔森积矩相关系数(Pearson product-moment correlation coefficient)
史匹曼等级相关系数（Spearman's rank correlation coefficient ）
卡方分布（chi-square ）

写作

卡方检验

Inkit wiki

侧边栏

导航

统计

手册

目录

描述与假设检验

CSV操作

groupby操作

数据初始处理

分布检验

假设检验

多重比较

方法选择

方法选用标准

写作

Inkit wiki

用户工具

站点工具

侧边栏

导航

统计

手册

目录

描述与假设检验

CSV操作

groupby操作

数据初始处理

分布检验

假设检验

多重比较

方法选择

方法选用标准

写作

页面工具