实验设计与分析(实验设计与分析2:简单比较实验)

实验设计与分析

搭建场景
部门购买了两款商业基础培养基,领导下达任务,让你尽快分析出哪一款商业培养基更有助于细胞生长。于是你设计了如下实验:两种商业培养基分为2组,每组做10个相同条件下的摇瓶批培养实验,得到最大活细胞密度,最终收集到20个数据(见表1)。通过比较你发现不能直观的判断出哪组结果更好,接下来,你翻开了本章内容……
表1. 两种商业培养基培养细胞的最大活细胞密度

01
目的与方法

通过设计实验,我们把目标等价于:比较两组培养细胞的最大活细胞密度哪一组更高。在这里,可以用假设检验(hypothesis testing)的统计推断方法,这种方法也称为显著性检验(significance testing)。

02
回顾几个简单的统计学概念

试验(run):实验中的每一次观测称为一次试验。

误差(error):试验结果上存在的波动或噪音,由不可控变异引起。

随机变量(random variable):由误差或噪音导致变量(即最大活细胞密度)具有随机性。

03
如何直观地比较两组数据的差异

如果实验数据较少(如本次实验)可采用点图(dot diagram)的形式,能够直观地看出每组数据的总体位置、中心趋势和分散程度,从而比较两组数据在这三个方面的异同(见图1)。

图1.最大活细胞密度数据分布的点图

如果实验数据较多,可采用箱型图(box diagram)的形式来比较(见图2)。对于其中的某一组数据,可采用直方图(histogram)来观察其特征(见图3)。

图2.最大活细胞密度数据分布的箱型图

图3.最大活细胞密度数据分布的直方图

04
如何度量一组数据的特征

通过图示法,几乎可以直接得出结论:第二组的细胞生长情况要好于第一组。但如何描述呢?我们需要量化地比较两组数据的特征参数来证明。

均值(mean)μ:用来描述总体分布的中心位置,由于在实验中只能用样本数据分布来估计总体分布,所以用样本均值y拔来估计总体均值μ。

方差(variance)σ2:用来描述总体分布的分散程度,同样可以用样本方差S2来估计总体方差σ2。

05
如何通过建立模型比较两组数据

通过比较样本的均值和方差,我们可以量化地评估两组数据,可是还是不够直观。如果能够建立一个模型,同时包含均值和方差这两个信息,是不是就更方便了。

接下来利用DOE语言描述建模过程:

两种培养基称为2个因子水平,最大活细胞密度称为响应,每个实验数据都是响应值。假设2个因子水平的响应值服从正态分布(μi, σi2), i=1, 2,误差同样服从正态分布(0, σi2), i=1, 2,由此可建立数学模型来描述实验结果:

yi,j = μi + εi,j   i=1,2; j=1,2,…,n

注:
yi,j表示第i个因子水平的第j个响应值;
μi表示第i个因子水平的响应均值;
εi,j表示模型的误差(与方差有关)。

如何利用模型进行比较呢?目前已知的条件有:样本量n1和n2,样本均值y1拔和y2拔,样本方差S12和S22(见表2)。两种培养基培养细胞的最大活细胞密度的方差未知,由于样本方差相似,我们可认为总体方差σ12=σ22。我们的目标就量化为比较总体均值μ1和μ2哪个值大。假设H0: μ1≥μ2(μ1≤μ2也可)。

表2.最大活细胞密度重要参数汇总

我们选择计算出一个合适的检验统计量,这个统计量用来检验假设μ1≥μ2是否成立。此外,我们给这次检验设置一个容错率α,即显著性水平。一般设置α=0.05,只要检验统计量有95%的概率落在其分布内,那么我们的假设就是正确的。否则,若 t0<tα,n1+n2-2 就拒绝假设。

有了理论基础,接下来我们来比较两个培养基水平最大活细胞密度的均值μ1和μ2。假设H0: μ1≥μ2,用于比较均值的检验统计量为t0,即使用双样本t检验。

由于:
其中:
带入数据得:t0=-2.20。

由参考分布图(见图4)可看出:t0=-2.20<t0.05,18=-1.734,所以我们拒绝H0: μ1≥μ2。同时得出结论:VCDmax1<VCDmax2,即在促进细胞生长方面,2号培养基要优于1号培养基。

图4.双样本t检验概率分布图

当t0=tP,18=-2.20时,P=0.021,这里的P值时数据显著时的最小α水平,也就意味着:假设H0: μ1≥μ2在显著性水平α≥0.021时将被拒绝。

06
如何检验总体的正态假设和等方差假设

利用正态概率图可检验方差齐性和正态性假设。如图5所示,横坐标为响应变量,纵坐标为累积正态频率,将数据从小到大进行排序,放入正态概率图中。在25%和75%的点之间画一条直线,如果所画的点近似落在一条直线上,可以认为总体服从正态分布;如果两条直线有相似的斜率,可以认为总体的方差相等。

图5.正态概率图

07
如何量化均值差异

其实通过点图和箱型图,我们能够看出来μ1≤μ2,所以可能没有必要去证明这个结果,有时候我们更关心μ1和μ2的差距有多大,即均值差:μ1-μ2。如同之前提到的显著性水平,我们同样要为这次检验设置一个容错率1-α,即置信系数。若α=0.05,那我们就有95%的把握认为结果是正确的。由于存在容错率,我们得出的均值差就不是一个精确值,而是一个范围,这个范围就称为均值差95%的置信区间(confidence interval)。

为得出均值差μ1-μ2的置信区间,需要一个同t0作用一样的检验统计量,这个检验统计量我们同样用t0来表示。

这里:
故:
由此推出:
代入数据得:-0.55≤μ1-μ2≤-0.01,故均值差μ1-μ2的95%置信区间为[-0.55, -0.01]。换一种说法,置信区间为:μ1-μ2=-0.28±0.27×106cell/mL。也就是说,两组实验最大活细胞密度的差异为-0.28×106cell/mL。

08
如何比较两个总体的方差

如之前所述,我们可以比较正态概率图中两条直线的斜率,来判断两组数据的方差是否相等。但是通过观察,感觉两条之间的斜率存在一定的差异,那么如何量化这个差异呢?

我们假设H0: σ12=σ22,用于比较方差的检验统计量为F0,即F检验。

由于:
如图6所示:

图6.F检验概率分布图

可知:
故接受假设H0: σ12=σ22,认为两组实验最大活细胞密度的方差相等。

——————————————
公众号:Jarvis的微思
来看看如何把一个简单的问题复杂化

——————————————

实验设计与分析相关文章