大数据揭示基因南北差异：南方人免疫力强?

在中国，南方人和北方人在饮食和生活习惯上非常不同。例如，一个典型的区别是北方人更喜欢肉，而南方人更喜欢蔬菜。这种差异背后的机制是什么？一项涵盖14万中国人的基因组大数据研究发现，这种不同的饮食习惯背后有着特殊的基因规则:在影响动物脂肪代谢的基因中，促进脂肪代谢的等位基因在蔬菜稀缺的北方省份显著丰富。此外，这项研究还揭示了中国人口更多的遗传特征。

研究结果最近发表在《细胞》杂志上。除了上面提到的饮食习惯的差异，这项研究还得出许多有趣的结论。由中国科学家领导的合作小组，在对14万多名中国人的非侵入性产前基因检测数据进行深入研究后，首次揭示了中国人口的独特遗传特征，以及南北之间的遗传差异，甚至发现了与双胞胎出生有显著关系的基因位点。

自人类基因组计划完成以来，越来越多的基因组计划被提上日程，如英国的10万人癌症和罕见疾病基因组计划和英国的50万人生物样本库，它们对了解特定人群的遗传特征和实现疾病的准确诊断和治疗有很大帮助。然而，在这项最新研究之前，公共数据库只包含301个来自千人基因组计划的中国基因组数据，这远远不能代表14亿中国人的遗传背景。

“最近，英国国家基因组计划再次升级，宣布在未来五年内将有500万人进行基因测序，”华大生命科学研究所母婴研究所副所长、该论文的合著者金鑫说。“其他国家正在快速发展，但中国仍有300人。我们希望尽快赶上，并在现有数据的基础上取得突破。”

南北差异的遗传因素

本研究的遗传资料来自141431名孕妇，覆盖31个省份和37个民族。

在数据分析中，研究人员发现了6个在纬度上被强烈自然选择的基因，也就是说，这6个基因在北方和南方的人群中有遗传差异。其中三个与人类免疫反应有关，一个与动物脂肪代谢有关。

"在人类进化中，免疫基因很容易受到自然选择的影响."金鑫说，如果免疫相关功能不能改善或不能适应当地环境，人们就无法生存。从历史上看，南北之间的自然环境非常不同，所以在免疫水平上会有差异，这些差异会反映在与免疫相关的基因上。此前，媒体报道称，这表明南方人有较强的免疫力。金鑫解释道:“事实上，这不一定是真的。应该说，南方人更适应南方的环境，并在他们的基因上留下了印记。”金鑫说:“古人说“船只停在郴州，马匹死在郴州，人们去郴州玩游戏”，意思是北方人在古代很难适应南方的环境。”

对于一些特殊的疾病，南方人确实比北方人有更强的免疫力，但这可能会增加患其他疾病的可能性以达到平衡。“疟疾曾在中国南方肆虐。为了适应环境，南方人群在基因水平上发生了一些变化，使得南方人群对疟疾更有抵抗力，”金鑫举例说。“但反过来，它也带来了副作用。突变基因会导致地中海贫血或其他血红蛋白疾病，如突变基因G6PD，它会导致“蚕病”，这种疾病在南方人口中比在北方人口中更为常见。因此，我们可以看到血红蛋白疾病在中国南方人群中更频繁地发生。”换句话说，中国南方的人们在提高抗疟疾能力的同时也付出了代价。

在动物脂肪代谢方面，研究人员发现，促进脂肪代谢的C型等位基因在北方明显丰富，尤其是在蔬菜供应相对匮乏的省份。这个等位基因能更好地促进动物脂肪的代谢。此前，该等位基因已被证实在南亚、欧洲和非洲人群中更为常见。“这个基因在其他人群中也有报道，”金鑫说，“但这是首次在中国人群中发现南北差异。”这与北方和南方的饮食习惯以及当地的食物有关。北方人爱吃肉，并且有能力无缘无故地消化它。

促进脂肪代谢的C型等位基因在各省的富集

从基因分析中，我们还可以看到人口迁移规律在基因上留下的痕迹。例如，研究人员发现，北京汉族的近亲不是北京人，而是沿海省份的人口:山东、浙江、江苏、福建和江西，这可能反映了人口向北京迁移的过程。

所有南部省份都离南部沿海省份更近，而北部省份离北部沿海省份更近。研究人员认为，这一观察可能反映了1949年以来政府组织的内部移民事件和1979年以来中国内地向沿海地区的劳动力转移。

“所以我们今天看到的基因分析结果都与中国祖先的迁徙和进化有关。我们从数据中看到的实际上是历史上我们祖先迁徙和与自然抗争的遗传记录。”金鑫说道。

孪生基因

由于本研究的样本全部来自孕妇，这不仅是研究中国一般人群遗传状况的好机会，也是研究与妊娠和分娩相关的基因的好机会。

研究人员研究了与妊娠和分娩相关的两种表型，即妊娠年龄和多胎妊娠。他们发现了两个与怀孕年龄显著相关的基因位点。这两个基因座的突变与生育力等因素密切相关。

此外，研究人员还发现了一个与双胞胎显著相关的基因突变位点，这在双胞胎母亲中更为常见。也就是说，携带NRG1基因的突变更有可能生双胞胎。“人们以前在小鼠模型中研究过这种基因，发现它的突变与小鼠的后代数量有关。”金鑫说道。剔除这个基因会减少老鼠的后代数量。当然，携带这种基因会增加双胞胎的几率，但这并不一定意味着双胞胎会出生。

中国的百万基因组计划

全世界有1000多万人接受了非侵入性产前基因检测，其中700-800万人在中国。无创性产前基因检测收集孕妇静脉血，对母体外周血浆中的游离基因片段进行测序，并筛选胎儿染色体非整倍体。众所周知，这种方法可以更准确地检测唐氏综合症。

通过这次测试积累的大量中国基因数据是一个巨大的基因宝库。“我们认为，未来科学研究领域的大数据绝不能仅仅来自于由假设驱动的有限的科学研究项目。大量数据必须来自数据驱动的真实应用场景，”金鑫说。“如何在保护个人隐私和数据安全的基础上，以合理、合规和高效的方式将临床场景或健康场景中生成的数据用于科学研究，对全人类来说是一件非常重要的事情。”

因此，当研究人员看到全球人口基因组的快速发展时，特别是当英国已经完成了100，000，500，000，并且正在向500万迈进，而中国仍然是300，他们认为追赶的方法是使用在临床场景中已经产生的大量数据。这次使用的样本量是140，000，几乎是中国人口的1/10，000。这是一个有代表性的大样本量。

然而，由于这些数据最初仅满足临床需要，因此单个样本检测到的基因组数据量相对较少。据金鑫介绍，产前基因检测获得的个体基因组数据不到整个基因组的10%。“一般来说，全基因组测试将产生超过100克的数据，但我们的数据只有几百兆字节。”这意味着对个人来说，全基因组测序数据的数量是非侵入性产前基因检测数据的数千倍。“因此，对于这个为期两年的研究项目，大部分关键研究都集中在如何用少量数据反映整个人群的特征上，”金鑫说。“我认为这也可能是大数据的魅力所在，即当所有样本一起分析时，缺失的部分可以相互弥补。”

将来，金鑫和他的团队有更大的计划。他们预计在未来三年将中国人口的样本规模扩大到100万。这将是一个艰难的过程。他们还将面临大量的数据分类工作，这需要细致的耐心和指数级的计算增长。