基因并不能决定我们的一切

来源:新浪科技发布时间:2019-02-19

我们所知的基因概念即将终结。

基因并不能决定我们的一切

近年来,我们看过了太多刻意制造噱头的新闻标题,比如“富有和成功源于你的DNA”、“儿童的成功或许将由一项新的基因检测决定”、“基因决定了我们未来的命运”等等。

问题在于,这些新闻中很多根本没有讨论真正的基因,而是根据一个粗略的统计模型,涉及几十种不太可能的假设。现在,可以确定的是,关于基因的整个概念模型正在受到挑战,尽管过程还十分缓慢。

我们已经攀上了基因的高峰,并且更进一步。

当然,这是一个引人入胜的故事。今天,大多数人都知道孟德尔(Gregor Mendel)在19世纪50年代的豌豆育种实验。他专注于简单的特征,具有明确且易于计数的性状:紫色或白色的花朵;长茎或短茎;光滑或发皱的种子,等等。在交叉受精后,后代的性状组合显示出这些变化与单个“遗传单位”有关。

孟德尔提出的遗传因子——当时还无法确定是什么——就是后来所说的基因。在20世纪初,有人将它们与整个后代在精神和身体上全面发展所需的信息和指令等同起来,这是个诱人的想法。

基因并不能决定我们的一切

通过计算基因数量来理解生命,就像以字母数量来判断文学作品一样,这是没有意义的。

丹麦植物学家威廉·约翰森(Wilhelm Johannsen)在1911年发表了一篇著名的论文,警告不要这么做。他说,我们不知道那些推断出来但无形的因子如何能携带如此复杂的信息。但是,约翰森的意见被忽视了,事实证明,真正的原因与意识形态有关,而与生物学无关。

20世纪20年代,受到偏爱的基因法则开始以不同的面目出现。1943年,著名物理学家埃尔温·薛定谔(Erwin Schrödinger)在都柏林的一次著名演讲中,对基因进行了恰当的总结。他告诉听众,染色体“以某种编码脚本的形式,包含了个体未来发展的整个模式,并决定了成熟状态时的功能”。

围绕着“编码”的形象,一个等级和特权分明的世界很快得到了加强。我们被告知,这些基因有不同的“长处”,在一个阶级社会中,不同的基因排列形成了决定不同“种族”和阶级结构具有不同价值的等级。整个智力测试运动就建立在这种先入为主的概念之上,之后才建立起相应的测试方法。

这一形象还助长了20世纪30年代的优生学和纳粹运动,带来了悲惨的后果。一些政府追随英国教育委员会在1938年提出的著名论断,宣布“遗传不平等是我们无法逃避的事情”,并且“不同的孩子……需要在某些重要方面接受不同类型的教育”。

第二次世界大战之后的基因研究将重点明确放在生物化学上,但也有类似的先入之见。

1953年,沃森和克里克发现了脱氧核糖核酸(DNA)的结构,这似乎证实了强大的编码脚本的存在。他们揭示了DNA中的由核苷酸组成的序列如何作为蛋白质的模板——可以视为一种编码,就像一台打字机将字母组合成为单词。因此,被广为接受的“中心法则”(central dogma)可以被认为是基因中编码的单向信息流:

DNA模板→蛋白质→发育特征;就好像只需要生成单词就能写出复杂的整本“书”。

然后,用于全基因组测序的卓越技术出现了。我们被告知,尽管成本巨大,但该技术在人类基因组计划中的应用将揭示“是什么造就了人类”。我们听到了过度的承诺,宣称很快就会发现控制人类智力、社会行为和复杂疾病的基因。

现在,在低成本、高度自动化的程序中,寻找这些基因变得更加容易。每个人的DNA组成——就像单词中的字母——都有所不同,这一现象称为单核苷酸多态性(single nucleotide polymorphisms,简称SNP)。对人类定义的遗传搜索被归结为寻找这些变化与智商、教育、疾病或其他方面的差异之间的相关统计。

多年来,令人失望的是,单核苷酸多态性和可观察到的人类特征之间只具有少数非常微弱的关联。于是一个凭空想象的主意出现了。为什么不把这些微弱关联中相关性最强的挑出来,把它们加在一起,直到获得一个与个体差异具有统计学显著性的关联?正是这样的“多基因评分”,将数百或数千个单核苷酸多态性组合在一起,与不同人的智商或教育成绩等特征关联在一起(尽管十分微弱),从而构成了我们如今在新闻中见到的夸大宣称。

今天,20世纪30年代的政策暗示再次被提出。与此有关的提议包括在出生时进行基因检测以进行教育干预、选择具有所需特征的胚胎、鉴别哪些阶级或“种族”比其他类别更健康,等等。在聪明的市场营销下,数以百万计的人惊慌失措地通过DNA自我检测工具包来了解自己的“基因运势”。

因此,如今在大众媒体中的炒作,正在将科学中一直潜藏的某种东西推广开来,这就是:存在一个作为实体的“基因神”,它具有近乎超自然的力量。借用英国圣公会的赞美诗来说,如今是基因“让我们贵贱分明,身份有序”。

科学哲学家苏珊·奥亚玛(Susan Oyama)在1984年出版的《信息的个体发生》(The Ontogeny of Information)一书中警告称:“正如传统思想将生物形态置于上帝的精神中一样,现代思想也找到了赋予基因终极成型能力的方法。”

在今天的科学和流行描述中,基因会“扮演”,会表现出“行为”,会“指导”“控制”“设计”“影响”,还会“起作用”“负责”,还是“自私”的,不一而足。仿佛基因也有自己的设计和意图。

但与此同时,相反的叙事正在建立,不是来自媒体,而是来自科学本身。

威廉·约翰森的逻辑观点长期受到压制,已经在过去几十年中助长了“基因神”的壮大。如今,他的逻辑已经回归。科学家现在明白,DNA编码中的信息只能作为蛋白质的模板,它不可能作为更复杂任务——将蛋白质组合成一个完整功能的实体——的指令,正如打字机的字母不会自己组成一个故事。

我们许多人都曾被灌输这样的概念,即在生物发育之前,必须先有一组基因指令;如果这些指令不在DNA编码中,又会在哪里呢?到了20世纪80年代,研究结果逐渐使这一概念完全改变。

首先,实验室研究显示,远在基因存在之前,生命形态可能就以“分子汤”的形式繁盛了很久。它们是自组织的合成聚合物(如RNA和DNA),通过数百种组分之间的相互作用不断适应、再生。这意味着它们遵循的是组分之间根据当前条件,因相互关系而产生的“指令”,没有整体控制者。遗传学家多伦·兰瑟(Doron Lancet)将这种“指令”称为“组合式信息”(compositional information)。

从这个角度来看,后来演化出来的基因,其实是先前系统的产物,而不是它们的最初设计者和控制者。基因更可能是在需要时作为组件的模板:一种在循环基础上“及时”供应零件的设施。

然后我们慢慢意识到,我们从父母那里继承的是这种动态系统,而不仅仅是基因。卵子和精子含有多种因子:酶和其他蛋白质;氨基酸;维生素;矿物质;脂肪;核糖核酸(RNA);数百种细胞信号因子;以及父母基因的其他产物,而不仅仅是基因本身。

分子生物学家一直在描述这些因子如何形成相互作用的复杂网络。它们根据周围不断变化的条件,自行组织在一起。由于对不断变化的统计模式十分敏感,它们会预测未来的状态,经常创造出新的属性来满足需要。

因此,即使是单个细胞也会改变自己的代谢途径,以及利用基因来适应这些模式。也就是说,它们在“学习”的同时创造出了指令。当然,基因被用作制造重要资源的模板。但是,系统的方向和结果不受基因控制。就像蚂蚁或蜜蜂的巢穴一样,在形态和变异的发展过程中有更深层次的动力学规律。

有些人将这个过程比作一个没有指挥的管弦乐队。生理学家丹尼斯·诺布尔(Denis Noble)将其描述为“随生命之调起舞”(Dancing to the Tune of Life)——这也是他新书的标题。在早期发育中,这个过程最令人惊叹。在几小时内,受精卵变成了一团由相同细胞组成的球——当然,它们都具有同样的基因组。但是,这些细胞已经在通过化学信号“风暴”进行交谈。通过化学信号风暴中的统计学模式,指令再次被创建。所有具有相同基因的细胞增殖成数百种截然不同的类型,在正确的时间找到合适的地方,开始随指令“翩翩起舞”。这一过程无法在DNA的固定字符串中指定。

于是,我们已经开始明白,不存在事先的计划或发育蓝图:指令是在仓促间实时创建的,远比愚蠢的DNA聪明得多。这就是今天的分子生物学家报道细胞中存在“认知资源”的原因;“生物-信息情报”“细胞智能”“代谢记忆”以及“细胞知识”,所有这些术语都来自最近发表的文献。“细胞会思考吗?”,这是2007年发表在《细胞与分子生命科学》(Cellular and Molecular Life Sciences)期刊上一篇论文的标题。另一方面,基因型中假设存在的发育“程序”编码从未被描述过。

正是这些发现彻底改变了我们对遗传因果关系的概念。我们传统上认为细胞内容物只是为DNA指令服务的。但是,正如英国生物学家丹尼斯·诺布尔所坚持的那样,“现代合成法已经表明生物学中的因果关系是错的……在被系统其他部分激活之前,DNA本身什么都做不了……DNA不是主动意义上的原因。我认为更好的描述是,DNA是一个被动数据库,生物体用它来制造所需的蛋白质。”

当然,很容易理解人们为什么会有直接遗传指令的印象。在一定程度上,父母将身体特征“传递”了下去:头发、眼睛颜色,身高、面部特征,等等;这些都是“在家族中流动”的东西。还有数百种疾病在统计学上与单基因突变有关。几十年来我们的认知都是,这些肯定反映了遗传编码预先决定了发育和个体差异,是这样吗?

事情并非如此简单。想想孟德尔的甜豌豆。有些花是紫色或白色的,正如前文提到的,遗传模式似乎反映了单个“遗传单位”的变异。然而,遗传模式并不取决于单个基因。统计相关性模糊了染料(花青素)的几种化学合成途径,这些途径由细胞作为整体控制和调节,包括许多基因的产物。一个组成部分(转录因子)的微小改变就会破坏这种编排,在这种情况下,花朵就是白色的。

这是诺布尔所说的“被动因果关系”的很好例证。类似的观点也适用于许多“遗传疾病”,以及在家族中“流动”的疾病。但演化程度更高的功能——以及相关疾病——取决于上面提到的更庞大的调节系统,涉及数千个基因。基因远不是一心一意的执行者,而通常是在DNA序列中,以十几个或更多的“调节”序列(被更广泛的细胞信号及其动力学所用)作为侧翼,来控制基因转录。

这就解释了为什么人类的基因数量只比苍蝇或老鼠多一些(大约只有2万),而胡萝卜的基因数量就有45000!生物的复杂性和它们拥有的基因数量之间并没有相关性,而是与调节网络不断演化的复杂性有关。通过计算基因数量来理解生命,就像以字母数量来判断文学作品一样,这是没有意义的。

所有这些为现代基因关联研究提供了令人焦虑的背景。此外,支持这些研究的统计分析本身也充满了陷阱。首先,在计算多基因得分的方法中,有数百万变量通过统计操作进行分析,从而为假阳性的产生提供了巨大的机会。极大的数据库——即使是随机产生的——会包含大量毫无意义的相关性;而且统计学显著性数值会因为无效的假设而极度夸大。

举例来说,在多基因评分估计中,假设单核苷酸多态性关联可以简单地加在一起,就像袋子里的豆子一样,不会彼此影响,也不会受到环境的影响。然后,正如美国国立卫生研究院(NIH)提醒我们的那样,绝大多数单核苷酸多态性在功能上都是不相关的。

更重要的是,所有现代社会都是人们不断迁移的结果,他们的遗传背景差异在功能上无关紧要。不同的迁移浪潮倾向于在不同水平上随机地进入阶层结构,产生所谓的遗传种群分层。但是,不同社会阶层在学习机会方面也存在差异,而智商测试、教育等的设计反映的正是这些差异,而不论学习能力的差异如何。因此,一些欺骗性的相关性也是不可避免的。

正如杰里米·J·伯格(Jeremy J。 Berg)于2018年12月在在线期刊Biorxiv上警告的那样,多基因评分“受到分层偏差的严重影响,因为即使祖先中很小的差异也会在无意中转化为预测表型的巨大差异。”

对这些工作不利的另一个方面是,研究者发现基因产物在使用之前通常会进行重排。这意味着不同的蛋白质(可能具有不同的功能)可以从同一基因产生,而不是像中心法则说的那样“一对一”。同样的,这些重排过程的指令也不是来自基因本身。

更令人惊异的是,基因组中只有不到5%的基因是真正用来制造蛋白质的。大部分基因用来产生大量的不同因子(RNA),通过调节网络来调节其他基因的使用。

我们越来越多地发现,在演化程度较高的性状(如人类思维)中,很少有从DNA变异发育至个体差异的预测。当然,基因是至关重要的,但近乎所有遗传变异形成的方式都是构建替代路线。“多种替代途径……是规则而不是例外,”2017年《生物系统》(BioSystems)期刊上的一篇论文如此写道。

现在众所周知的是,在相同环境中养育的一组基因相同的个体(比如纯种的实验动物),在成年时并不会完全相同。相反,它们会展现出全方位的身体和功能变化,与正常的、遗传变异的群体中出现的情况一样。在2013年《科学》(Science)杂志的一篇报道中,茱莉娅·弗林德(Julia Fruend)及其同事在大脑结构发育的差异中观察到这种效应。

同样,我们现在可以理解为什么相同的遗传资源可以在不同器官和组织中以多种不同的方式发挥作用。现在用于我们手臂和双腿发育的基因,最初都出现在没有这些器官的生物体中。果蝇用于性腺发育的基因现在被用于人类大脑的发育。而且,大多数基因会同时用于几种不同的组织,以实现不同的目的。

在2013年发表在《生命物理评论》(Physics of Life Reviews)期刊的一篇论文中,詹姆斯·夏皮罗(James Shapiro)描述了细胞和生物体是如何进行“天然基因工程”的。也就是说,它们经常改变自己的DNA序列,对基因组的改写贯穿了它们的整个生命。该研究最令人震惊的暗示是,对基因的普遍认知——作为DNA链上的蓝图,决定生物发育及其变异——实际并不存在。

因此,在2017年《遗传学》(Genetics)杂志的一篇综述中,遗传学家佩特·波汀(Petter Portin)和亚当·威尔金斯(Adam Wilkins)质疑了“基本‘遗传单位’概念的应用以及长期以来对基因是自主介质的盲从信念”。他们指出,基因的“经典分子定义已经过时了”。

这些对基因概念的彻底修改需要尽快让大众知晓,才能使我们避免重复以前的政策错误。

扫码加蝌蚪五线谱微信