您好、欢迎来到现金彩票网!
当前位置:秒速牛牛投注 > 统计推理 >

你想得到的是你想要的结果还是真实的结果? 科学推理中的统计分

发布时间:2019-07-09 21:16 来源:未知 编辑:admin

  作为生命科学研究的重要工具,生物统计学被广泛应用于基础科研的各个领域。如何应用好生物统计学对原始数据进行分析从而产生真实可信的统计结果是进一步开展科学推理的保障。然而科研人员接受生物统计学的训练普遍较少,在平时的科研中常常会出现使用不当的情况,从而遮蔽了真实的实验结果并严重影响后续实验推断。近年来,很多一流期刊杂志对于实验数据的统计分析提出了更高的要求,这就需要我们广大科研工作者在日常科研中具备生物统计学的基本素质,方能胜任日益复杂化的科研工作。于2019年第1期在线发表了中国科学院分子植物卓越创新中心/植物生理生态研究所Statistics as Part of Scientific Reasoning in Plant Sciences: Overlooked Issues and Recommended Solutions,指出了目前植物科学研究中存在的一些统计分析上的问题并提供了相应的解决方案,文章发表后受到很多学者和研究生的关注。在这里文啟光研究员撰写了更为翔实的中文版,希望能够对广大科研工作者尤其是研究生们的科研工作有所启发和帮助。

  植物分子遗传国家重点实验室, 中国科学院分子植物卓越创新中心/植物生理生态研究所

  实验科学通过实验结果对科学问题进行分析推理进而提出最终的推断或是模型,因而实验本身的设计,取样,分析,实验所获得证据的证据力等都不同程度地影响实验结果判断。在这些过程中,对实验结果进行合理、公正、无选择性的分析是对实验结果做出客观判断的重要过程;而维护实验及数据的透明性(transparency) 是保障数据公平性的必要做法。合理的统计分析与标准能够量化实验结果进行科学性的比较,也因此在科学推理的过程中占有极为重要的角色。大多数科学家都会在展示实验结果的内容上进行所谓的统计分析,很遗憾的是多数科学推理仅仅根据的统计分析的“显著性”(statistical significance) 进行非黑即白的二元(dichotomous) 判断,忽略了科学推理的实质内涵。也由于这种二元标准的普遍被采用,部分科学家为了支持自己的科学观点,有意无意地追逐统计学显著性,选择性地获得或是操作阳性结果而隐藏阴性结果(称之为P-hacking),忽略了统计分析的核心作用与意义。也同时忽略了其他相关科学证据对于“有知识的”(knowledgeable)科学推理与判断的重要性,忘记了统计分析只是科学推论过程的一个部分,而不是全部。换个角度看待这个现象,可以说是对于统计的内容了解不充分,却利用统计手段支持科学判断。这些行为逐渐造成许多科学领域中实验可重复性越来越差;不但破坏了个别科学领域的科学完整性,也很大程度上影响后续追随(follow-up)的实验,浪费了后续追随实验者的时间,经费,纳税人的钱包,甚至危害了一些人的科研生涯。在生物医学领域,这些做法更可能影响健康及危及生命。

  取样(sampling)的一个目的是通过样本来推断母群 (population) 的特征以显示实验的效果,所以,取样需要具有随机性(randomness)以满足外在有效性(external validity)与内在有效性(internal validity)。外在有效性指的是这个样本是否能够有效地估计该样本所相对的母群;比如,如果用北京市的水稻栽培面积百分比来估计全国的水稻栽培面积百分比就不具备外在有效性,因为北京本身不是水稻栽培区,而水稻栽培具有特定地域性。当样本的外在有效性受到限制时,我们做的科学推断也同时受到限制。内在有效性指的是我们选取样本所获得的实验结果在相关母群是否具有普遍化(generalization)意义;我们获得的实验判断应该是我们通过实验处理得到的差异,而不是我们刻意把原本就有差异的实验对象放进不同群组(group assignment) 所得到的结果。比如,我们要研究光强度对于植物幼苗生长的作用,如果一开始就刻意将矮苗与长苗放进不同的实验群组(groups)然后进行实验处理,那么,这个实验结果更可能是实验材料分组的结果,无法实际显示实验处理对于样本的作用。在实际的文献发表中,有时候会看到样本不具外在及内在有效性的例子。例如,实验结果显示的是一个植物幼苗时期的表型特征,相关的分子证据(蛋白水平或是基因表达水平)却来自其他发育时期。

  样本大小(sample size)有时候是个恼人的问题,往往会问:要多大的样本才够大?由于取样的目的是通过随机取样来估计母群的特征,理论上样本越大越好,这样能够避免取样误差以及消弭样本本身所存在的不稳定性。另一方面,如果了解了样本大小和显著性分析,显著性的可重复性,以及效应量大小之间所存在的联系,样本大小不会是限制我们进行科学判断的因素。在实际操作上,特别是分子生物学实验以及细胞生物学观察,样本往往小的可怜。我们经常看到分子生物学实验的基因表达分析样本数为3(n=3);当然,这样的样本大小显然太小而缺乏随机性。对于其他的分子生物学样本大小,像是蛋白水平分析,通常样本数只有1,不具有统计分析意义。而细胞生物学的观察,往往只截取众多细胞图像中的一个小区域,更不具有随机性与代表性。所以会有“分子生物学,细胞生物学,生物化学,经典遗传学研究往往很少涉及统计分析”的说法(Nature 492:180, 2012)。在分子生物学研究中,更被忽略的部分是分子生物学实验存在两层样本大小。我们测量某个生物特征(例如重量),这个特征可以通过一次取30个样本,获得样本大小为30的测量数据进行统计分析。然而,分子生物学实验往往不具备这个条件。比如,我们需要通过取得某些生物组织或是特定部位进行分子生物学实验(例如基因表达),获得一个测量数据,该次测量数据代表一个样本大小为1的数据。我们重复进行这样的取样与分析,比如获得了5个分子生物学测量值,那么,我们得到样本大小为5的基因表达测量进行统计学分析。看起来没有什么问题,但是,这里忽略了第一层样本的大小,我们获得的分子生物学实验数据实际上是来自第二层的样本大小。第一层样本大小指的是我们每次取得样本来自多少个个体,而不是重量,也不是随意取。比如说,我们进行基因表达分析,每次取3个个体(第一层样本n=3)和每次取30个个体(第一层样本n=30)所提取的RNA进行分析,得到的结果和稳定性会有很大的不同。当第一层的样本大小不被重视的时候,我们得到的第二层分子生物学实验数据很可能就失去了样本有效性,或是在统计学上因为第一层样本大小不同,代表性不同,随机性不同等问题而不能进行合理比较。所以,进行分子生物学实验时,第一层的样本大小不该被忽视。

  所谓独立取样(independent sampling)指的是样本之间彼此独立不相关。比如,我们测量一批植物幼苗的某个基因表达,我们该一次种了很多苗,然后将这批苗分成几个部分当作重复;还是我们应该分批种植幼苗,进行取样,然后进行分析?前者的样本不属于独立取样,因为都是来自同一个样本的其中一部分;后者才是独立取样。当样本来自独立取样时,由于每次的样本背景噪音值不同,在分析的时候,能够凸显不可重复的噪音背景而将之剔除。如果仅仅是一次样本分区取样,那么,这些样本具有相同的噪音背景值,这些背景值很容易被当作真实信号,造成假阳性。另外,我们一般进行的统计分析比较属于推论统计(inferential statistic)范畴,非独立的取样只能算是技术重复(technical replicates),无论有多少个技术重复,统计上样本大小还是只有1。当样本大小为1的条件下,是单一估计值,不能用来进行推论统计分析。在实际发表的文献中,这类将技术重复的结果进行统计分析的例子不在少数,增加了假阳性发生的机率。

  我们一般进行的统计分析大致包括描述性统计(descriptive statistics) 和推论统计。前者是对样本特征进行描述,后者是通过样本特征对母群特征进行推论。在进行不同样本或是实验处理进行比较时,采用的检验统计 (test statistics),比如 t-test, F-test, Chi-squared 等属于推论统计范畴。对大部分植物科学论文的分析发现,t 检验是最被广泛采用也是被滥用的检验统计手段。t检验适用于单个或是两个样本平均值的比较,往往我们会看到很多文献用 t 检验对多个样本平均值进行一对一的比较,这种比较容易得到更高的假阳性可能,也不符合t检验的检验原理。对多个样本平均值进行比较应该采用变方分析 (analysis of variance, ANOVA),采用的是F检验。而 F 检验是一种混合(omnibus)分析,只能告诉我们这一组平均值之间是否存在差异,并不能告诉我们哪几个个别平均值之间存在差异。要知道个别平均值之间是否存在差异需要进一步进行多重比较 (multiple comparisons),对不同的样本平均值之间进行一一比较。多重比较可以分为事前比较(a priori comparisons)与事后比较(a posteriori comparisons)两类。事前比较是有针对性的比较,比如,根据实验性质或是已有知识,我们能够判断哪些样本之间应该会发生差异,我们可以不经过 F 检验的显著性直接对个别的样本进行一一比较。事后比较则是我们并没有任何已知知识判断一个实验是否会发生作用,只能在检验到显著性 F 值后,分析哪些平均值之间存在差异。ANOVA除了常用的单因子分析(one-way ANOVA)外,还有多因子(factorial)分析,比如 two-way ANOVA 对双因子产生的效应进行分析。当我们对不同基因型材料进行实验处理后得到的测量值,实际是由两个因素产生的(基因型和实验处理),而这两个因子会产生互作(factorial interaction)影响单因子的效应。如果忽略了这个互作的效应,很容易对实验结果的判断发生错误的推断(比如,实验的差异是由因子互作造成,而不是单纯由实验处理所造成)。Two-way ANOVA 可以显示两个因子间的互作效应,协助我们对实验结果的判断。我们也会看到一些数据为百分比或是比率的比较采用了 t 检验;然而,t 检验并不适用于这类数值的比较。因为 t 检验适用于样本平均值的比较;比较个别百分比是单点估计值(single estimate),不能用t检验分析。除非 t 检验用来比较多个百分比的平均值,这个时候必须考虑这些不同百分比是否来自相等样本大小。如果原始的样本大小不同,甚至差别很大,t 检验就不适用。进行百分比或是比率的分析时可以用 z 检验或是卡方分析(Chi-squared)。当t检验被用来比较两个平均值时,还要注意样本的独立性或是相依性。独立样本(independent samples)的平均值比较采用非配对 t 检验(non-paired t-test),而相依样本(dependent samples)采用配对 t 检验(paired t-test)。这里所谓独立样本指的是两个样本之间没有关联,比如两个突变体的特征分析,一个实验处理对于某个生物反应的效果等。而相依样本指的是相同样本的分析,比如同一批植物的根在重力处理前与处理后的重力反应变化(同一个样本在处理前与处理后的差别分析)。

  我们在获取实验数据时,要绝对忠实于原始数据,不带偏颇地记载数据,而不能选择自己希望的数据,剔除自己认为错误的数据。否则,通过操作(manipulation)而获得的数据缺乏随机性,具有选择性,引导性,无法真实反映出实验结果。在实践上,分子生物学,细胞生物学,生物化学实验往往在这方面的陈述非常缺乏(Nature 492:180, 2012)。比如说,细胞生物学展示一个亚细胞状态,往往截取了众多细胞中一个细胞中的一小部分呈现,没有对多数细胞的状态进行量化的统计分析,容易产生主观判断。在分子生物学实验中,比如蛋白互作实验,也往往缺乏对该实验重复性的陈述;更多的分子生物学蛋白互作实验是经过不断的“条件优化“后得到的结果。没有人知道这所谓的条件优化到底是不是符合体内真实互作的条件,还是一个被做出来的结果;也没有人知道在相同条件下,不同批次的原核表达蛋白是否也能够发生互作。仅仅展现阳性的互作结果不代表之前阴性的互作的结果是假的,也不能证实这次发生阳性互作的结果是真的;只能说某次的实验结果具有偶发性。因此,在这些相关的领域中,需要更好的统计分析以产生更有力以及更加透明的实验证据。另外一个关于忠实原始数据的话题是我们是否可以调整数据?统计学上有所谓的数值转换(transformations);当我们获取的数值无法满足一些统计假设时,这些数据无法进行相关的统计分析。这个时候可以允许(legitimate)数值转换,像是取对数后或是取平方根使得数值特性与统计假设相符合,能够进行相关的分析。此外,有些实验需要将数据均一化以便于分析不同剂量处理造成的反应。记住一句话:if it is not broken, dont fix it。如果没有必要,就要避免过多的操作,避免无谓的假阳性发生。在文献阅读时,有些期刊论文将不同的独立测量值(例如某个生物组织的长度与宽度)转换成比例后,对这个比例进行分析获得显著性差异的结果。这类的转换存在适合性(validity)的问题,因为这两个数值是独立发生的,他们所相对的样本分布(sampling distributions)也不同,缺乏相互转换的理论依据与必要性。如果需要进行这样的转换比较,需要同时分析个别数值之间的差异性,并解释转换的必要性。有些实验由于实验材料特性,往往无法获得一致性高的独立生物学重复;像是病原菌接种实验,或是植物抗逆实验等。这些实验涉及了复杂的实验材料状态,要从独立生物学实验获得高度一致性的数值并不容易。遇到这种情况,如果只是重复许多次实验后将其中(所预期)一致性好的结果放在一起,剔除(所预期)一致性低的结果,那么是一种选择性操作,应该被禁止。反过来看待这种操作,如果将一致性低的结果放在一起,会不会产生另外的一种结论?对于这类的实验结果处理,应该忠于原始数据,从个别的独立实验中发现一致性的结论,才能真正剔除背景噪音,发现可重复的结果,也是忠于原始数据的做法。我们也会遇到一些文献论文提到相似的数据没有呈现;这类的做法也要避免,甚至一些期刊已经明文禁止。既然结果相似,为何不呈现?或是,是否采用了任何分析证实这了些重复的实验具有相似的结果?如果没有,又如何能够让数据变得不透明同时做出结果相似的结论呢?

  我们通过随机取样来估计母群的特征,然后进行比较分析。描述性统计用来解释样本特征,比如平均值,个别测量值与样本平均值的离散程度等。推论统计则是利用描述统计的统计值对母群进行估计,像是平均值,样本平均值相对于母群平均值的离散程度,以及上述提及的检验统计等内容。由于我们通过取样来估计母群(母群特征往往不可得也不可知),在实践上,每次取样所得到的描述性统计与推论统计的统计值都会不同。这种不稳定性(instability)的存在,给了我们估计的空间,而不是限制我们对数值的分析。也由于取样所带来的不稳定性,我们经常使用的P值显著性也存在不稳定性;这是P值不能做为评判差异是否存在的原因之一。由于统计带来了估计的空间,我们根据统计结果进行科学推论时,应该采用的是估量思考(estimation thinking)而不是非黑即白的二元思考(dichotomous thinking)。估量思考除了统计分析给我们的统计值做为判断依据外,还需要总体考虑其他的科学证据,进行有知识的判断。正确理解我们常用到的统计值有助于我们正确使用推论统计对实验结果进行合理客观的判断。我遇到一些科学家,同学,他们对SD和SE的理解会有这样的答案:SD比较大,SE 比较小,作图时 SE 比较好看;有的人会把柱状图上的SD或是SE是否重叠当作显著性的判断依据。有的文献为了显示平均值的差异“显著”,刻意改变了纵轴的起始点,将原本差异微小的数据在视觉上看起来极大;有的文献为了展示某个实验发生了效果,只提及部分符合解释的显著性分析,其他不能解释的差异就不在论文里提及。这类选择性的操作,也造成了所谓的”missed misconduct”(被消失的行为不端,Nature, 485: 298, 2012);如果对于这些基本的统计值没有基本的理解与使用,那么,”sloppy science will continue to grow”的现象也不会改善。

  目前许多的科学判断仅仅采用单一的显著性P值做为黄金标准。然而,P值所具有的不稳定性与低重复性并不是个理想的标准,P值本身并不是用来估算差异是否存在的机率。而在统计分析的假设检验(hypothesis testing)中,原假设 (null hypothesis H0: m1=m2) 的真伪并没有得到证实,甚至说,P值仅仅只是统计分析过程中的一个初级产物,提示我们这个结果或许“值得再看一眼”。长年以来,假设检验被许多统计学家所和科学家诟病;美国心理学期刊Basic and Applied Social Psychology甚至禁止使用P值对实验做判断。美国统计学会也对P值的使用进行了讨论与建议(The American Statistician 70:129-133),建议中提到规范的统计分析是端正科研行为的一个必要成分没有任何一个单一指标能够取代科学推论(Good statistical practice, as an essential component of good scientific practiceNo single index should substitute for scientific reasoning)。那么,我们该如何根据统计分析来辅助科学判断呢?首先,我们通过推论统计得到了几个统计值,让我们样估计出本平均数的分布和离散程度,也让我们设定了置信区间(confidence interval),进行检验统计,得到了相对的统计值(像是t值,F值,卡方值,z值)以及对这些统计值进行差异判断(像是P值评估在设定的置信区间内没有发现差异的机率,评估一个真实存在显著性可重复性的统计力power,以及差异量/效应量effect size)。显然,在一个统计分析过程中产生了这么多种统计指标,仅仅采用单一、最不靠谱的P值进行科学判断会是件极不合理的做法。典型的统计分析设定了5%或是1%的显著水平,分别定义了95%和99%置信区间。要是一个测量值在置信区间之外,就判定为差异显著(statistical significance)。然而,每个实验或是样本的特性本就存在不同,没有根据这些特性就统一定义一个置信区间标准做为差异是否存在的判定,这种做法本身就缺乏逻辑合理性,也鼓励盲目追求显著性。P值本身是用来计算某个统计值落在该母群统计值分布区间的概率,是估算没有差异的概率;这个概率并不能反过来相减来判断不落在这个统计值区间的概率。如果我们拿这个概率来判断差异存在的概率,当然会得到一个错误的答案。有这样的报道,当一个显著性P值为0.05和0.01时,发生假阳性的机率大约是29%和11% (The American Statistician 55:62-71);并不是想象中的5%和1%。由于取样造成的不确定性,P值本身的不稳定性,当我们得到一个显著的P值的时候,需要检验这个显著P值的可重复性。如果显著性P值的可重复性足够高,那么,这个差异分析的证据力就足够强,更能支持这项假设检验的结果。这个检验P值的证据力称作统计力Power;一般认为Power至少要在80%以上,也有人建议Power 应该大于90%。也就是说,如果重复100次实验发现显著性P值的次数要在80甚至90次以上,这个显著P值才可信。P值只能告诉我们差异不存在的概率,而且原假设从未获得证实;即使得到了一个足够高的统计力,并不能告诉我们一个实验到底发生了什么变化,变化量有多大,产生的实际效力有多重要。不少文献在描述统计结果时,往往会做这么样的注解:统计显著所以差异很巨大,实验的发现很重大。英文中的significant的确可以解释为巨大;但是,统计学上的significant并不是用来解释差异很巨大,仅仅是描述相关统计值落点的概率,更没有描述差异到底有多少。这个时候,就需要借助效应量effect size来阐释这些问题。Effect size可以这么理解:两个测量值之间差异的大小,可以是简单的平均值相减,也可以通过其他不同的计算方法获得。更合理的效应量可以将差异量进行标准化(standardize)后呈现(例如Cohens d);经过标准化后的效应量可以进行不同实验结果的交互比较,也避免生物材料自身性质不同而产生实际效应量被判断错误的情况发生。此外,样本的平均值并不能真实反映这些测量值的区间,仅仅计算平均值之间的差异来那个并不能告诉我们差异的区间范围。所以,在表示差异量的时候,如果能够将差异区间显示出来,会给我们更多关于效应量的信息。效应量的大小是否足以解释实验的效应,需要更广泛的科学判断。足够大的效应量更容易解释一个生物学效应,但不见得一定会产生相关生物学作用;一个微小的效应量并不见得没有生物学意义,而一个有意义的生物学解释会让人发现该微小效应所产生的重要性。生物个体之间原本就存在某些差异,只要样本足够大,任何极微小的差异都能够被显著性P值以及统计力检测到。如果得到了很明显的P值与统计力来支持差异的存在,却无法解释一个极微小差异量的生物学意义,那么,只能说是该实验的确造成了某些改变,但是,这样的改变量可能并不是很重要。通过显著性所建议的假设检验(参考P值),该假设检验的可重复性(参考Power),两个平均值的差异量(effect size),以及我们对相关科学研究的认识,判断,实验设计的合理性,实验技术本身的可靠性等内容,我们可以进行有知识的科学判断与推理。

  图示是文献论文中呈现结果的最直接方式,而统计结果的呈现,除了文字上的描述与科学判断外,图示也是常用的呈现方式。合适的图示呈现有助于数据透明度,呈现更丰富的数据内容,帮助读者对数据的解读与判断,也避免了隐藏数据的行为。一般上,柱状图加上误差线是文献中最常使用的方式。然而,更适合于柱状图呈现的数据类型是比例(proportions)或是个数(counts)。我们更常使用的平均值适合以箱型图(box plot)呈现,可以显示一个测量数据的数值分布状态。对于极小样本而言(例如 n=3),箱型图不足以呈现数值的分布,散点图(dot plot)能满足这类极小样本的数值呈现。另外,箱型图配合散点图的呈现方式更能够展示数据的完整性与透明度。我们经常会看到柱状图表示平均值同时加上误差线表示离散程度的图示。这种呈现方式对于不了解统计学的读者而言,可能容易产生误导:将平均值与误差线做为测量与误差范围,并将不同柱状图的误差线重叠性做为是否存在差异的判断。这种判断存在一个明显错误:一个标准差所涵盖的数值大约是母群的34%,而1 SD只涵盖68%,1.96 SD涵盖95%,而3 SD涵盖母群99%的数值。或许以置信区间(confidence interval)表示的误差线可以协助显著性的判断;但是,在实际操作上并不建议这么做,因为,这种判断的成立需要在特定前提下才成立。比如说,当误差线之间很接近,用视觉判断差异就存在主观性;当样本大小或是变方不均一时,误差线不能做为判断依据;当多个样本平均值进行比较时,所采用的比较标准有别于单纯的t检验,更不适合用误差线进行判断。所以,在绝大多数的条件下,不建议用误差线判断平均值的差异显著性。而统计分析所计算得到的显著性,统计力以及效应量才是我们进行辅助性科学判断的依据。我们也会看到统计结果呈现时,出现纵轴被刻意截短的现象,也就是纵轴不是从原始点0起始,而是从一个接均值的数值做为起始点。这种呈现方式往往在视觉上夸大了两个平均值之间的差异性,但是,如果仔细检阅纵轴数值,可能发现实际差异非常微小;这类的数据呈现方式会产生引导性,也应该被禁止。我们阅读文献时,也会遇到作者陈列了一大排数据,在柱状图上连接了多条线,分别标注了显著性。这类的呈现方式非但没有给读者带来便利,反而更令人困惑。没有告诉读者谁是对照谁是实验组,要读者自己从一整排缺乏组织的数据中猜出作者的意图。同时,先前也提到的,t检验不适用于多个平均值之间的一一比较;这种数据呈现方式也曝露了不规范的统计分析,也曝露了作者缺乏整理归纳数据的能力。一个合理的数据呈现更要注意将相比较(contrasting)的数据组放在一起(group),容易辨识,易于判断。

  很多生物科学家和研究生都学习过生物统计学,但是在实际应用过程中不少研究者却没能根据统计学原理来设计实验和运用合适的统计学方法来分析实验结果,得出正确的结论,如在很多情况下利用了生物统计学教科书中特别警告要小心使用的显著性来做为科学判断的重要依据。如果能够理解基本的统计原理与操作,促进实验数据的透明度,展现数据的完整性,忠实呈现数据与数据分析的结果,结合其他相关的科学证据与知识,进行客观的科学判断,将能够推动科学进步,走出目前科学研究重复性低的困局。

http://duchtech.com/tongjituili/339.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有