人类陈旧适应性渗入的证据
Fernando Racimo
1
1
^(1) { }^{1} 、 Sriram Sankararaman²、 Rasmus Nielsen
1
,
3
1
,
3
^(1,3) { }^{1,3} 和 Emilia Huerta-Sánchez
4
4
^(4) { }^{4}
抽象
随着来自不同人类群体的现代和古代 DNA 序列数据的积累,越来越多的证据支持从古人类那里获得的有益变异的存在,这些变异可能加速了适应并提高了在新环境中的生存率——这一过程称为适应性渗入。在过去的几年里,一系列研究确定了基因组区域,这些区域显示出陈旧适应性渗入的有力证据。在这里,我们概述了为识别现代人类基因组序列中的古老渗入片段并确定正选择是否作用于这些片段而开发的统计方法。我们回顾了最近报道的适应性渗入的例子,按选择压力分组,并考虑了每个例子的支持证据水平。最后,我们讨论了在渗入地区推断选择的挑战和建议。
现代人类
现代人类和他们最近的祖先,直到他们从关系最密切的古人类群体尼安德特人和丹尼索瓦人分化出来的时候。
自 1970 年代以来,现代人类与其他现已灭绝的古老古人类群体之间的关系一直是一个争议的话题。最初提出了两个相互竞争的假设:多区域模型
1
1
^(1) { }^{1} 假设现代人类在交换移民的同时,在整个非洲和欧亚大陆从不同的古群体平行进化而来,而非洲以外的模型则提出所有现代人类都起源于非洲大陆,并从非洲大陆扩展到世界各地
2
2
^(2) { }^{2} .然而,在过去的 30 年里,这两个假设越来越被视为过于简单化。出现的其他中间模型涉及最近起源于非洲,来自欧亚古群
3
3
^(3) { }^{3} 的混合量有限,或者在现代人类向欧洲
4
4
^(4) { }^{4} 扩张期间,尼安德特人相当程度地被同化到现代人类基因库中。
直到最近,对现代人类人群全基因组序列的分析似乎支持非洲以外的模型,尽管某些研究观察到的基因组模式可能表明现代人群和古人类人群之间的局部基因流动
5
,
6
5
,
6
^(5,6) { }^{5,6} 。考古证据还表明,尼安德特人早在 40,000 年前就存在于欧洲和西亚
7
7
^(7) { }^{7} ,这意味着他们可能与现代人类共存了至少 2,600 年。然而,在过去的五年里,来自两个古老人类群体的全基因组序列,
尼安德特人和
8
−
10
8
−
10
^(8-10) { }^{8-10} 丹尼索瓦人
11
,
12
11
,
12
^(11,12) { }^{11,12} 提供了关于古人类和现代人类之间基因流动程度的直接见解。
尽管现在人们普遍认为混合发生在古代和现代人类群体之间,但对渗入片段的适应性贡献知之甚少。动物和植物的渗入使适应的案例已被广泛记录(在 REFS 13-15 中回顾),尽管令人惊讶的是,对人类
16
,
17
16
,
17
^(16,17) { }^{16,17} 适应性渗入的关注很少。
在这里,我们回顾了最近的人类遗传学研究,这些研究确定了现代人与尼安德特人或丹尼索瓦人古老适应性渗入的几个例子。首先,我们简要介绍了用于基于现代和古代人类的全基因组序列检测适应性渗入的统计方法。然后,我们回顾了支持特定提出的古老适应性渗入实例的证据。最后,我们讨论了该领域的几个未解之谜,并提出了未来研究的可能途径,例如开发联合模型选择和渗入的方法。
古老的基因流
尽管大多数非非洲人类血统与非洲人共享,但非非洲人也拥有少量来自尼安德特人的
8
8
^(8) { }^{8} DNA (1.5-2.1%) 。
图 1|混合和祖先种群结构情景下古区的预期长度。显示了混合情景(左面板)和祖先种群结构情景(右面板)的类似古生物的土地的预期长度。由于混合种群中重组分解迁移区(红色)的时间较短,因此在这种情况下,预期区域长度将比祖先种群结构时长。
非洲以外的模式
一种近代人类进化的模型,假设所有现代人类都起源于非洲,然后扩展到世界各地,取代了其他古老的群体。
混合
来自过去孤立的两个种群的个体之间的基因交换。
古人类
在 550-765 千年前 (kya) 与现代人类分化的一大类人类(假设每年
0.5
×
10
−
9
0.5
×
10
−
9
0.5 xx10^(-9) 0.5 \times 10^{-9} 每个碱基对的突变率),然后现代人类开始彼此分化 86-130 kya(假设相同的突变率),现在已经灭绝。这包括尼安德特人和丹尼索瓦人种群。
祖先人口
结构 祖先种群未同质混合的人口统计情景。例如,由于地理位置或配偶选择,一些亚群与某些其他亚换的移民可能多于与其他亚换的移民。
尼安德特人混合的水平在非非洲人中有所不同;例如,最近发现亚洲个体的全基因组序列显示尼安德特人血统片段的比例大于欧洲人的
12
,
18
,
19
12
,
18
,
19
^(12,18,19) { }^{12,18,19} 序列。此外,美拉尼西亚、巴布亚和澳大利亚的一小部分血统 (3-6%) 来自丹尼索瓦人
11
,
12
,
20
11
,
12
,
20
^(11,12,20) { }^{11,12,20} ,在东亚也发现了少量的丹尼索瓦人血统 (
0.2
%
0.2
%
0.2% 0.2 \%
9
,
21
9
,
21
^(9,21) { }^{9,21} )。此外,最近对非洲不同人群个体的全基因组序列的分析表明,一些非洲人群也可能与尚未确定的古人类群体
5
,
22
,
23
5
,
22
,
23
^(5,22,23) { }^{5,22,23} 交换了遗传物质。参考文献 24 回顾了对现代和古代人类基因组序列分析的最新人口学推断。
现代非非洲个体的全基因组序列中存在尼安德特人和丹尼索瓦人 DNA 被普遍认为是混合的结果,可能是现代人和古人类
25
25
^(25) { }^{25} 之间有限的杂交的结果。另一种解释是祖先种群结构。在这种模式下,古人类和现代人类祖先种群的人口细分可能导致一些现代人类群体,例如欧亚人的祖先,与留在非洲
26
26
^(26) { }^{26} 的其他群体相比,与尼安德特人的关系更密切(图 1)。然而,尼安德特人最后一次基因交换成前一天的欧亚人的日期支持了混合情况。通过检查渗入 DNA 片段长度的分布,可以一定程度地确定这一事件的年代。每一轮重组都会分解单倍型 分成较短的片段。因此,与旧渗入事件
27
−
29
27
−
29
^(27-29) { }^{27-29} 或祖先种群结构产生的 DNA 相比,近期渗入事件的 DNA 应属于更长的连续束(图 1)。对渗入道长度的测量表明,最后一次基因流动事件发生在 50-6 万年前 (kya)
30
−
32
30
−
32
^(30-32) { }^{30-32} 。这个时间框架太近了,无法支持祖先种群结构的情景,因为人类和尼安德特人之间的分歧时间被认为发生在 550-765 kya(假设人类突变率为
0.5
×
10
−
9
0.5
×
10
−
9
0.5 xx10^(-9) 0.5 \times 10^{-9} 每年每个碱基对)或 275-383 kya(假设每年
10
−
9
10
−
9
10^(-9) 10^{-9} 每个碱基对的突变率
)
9
)
9
)^(9) )^{9} )。此外,它也在很大程度上晚于非洲-欧亚种群分裂,据估计,非洲-欧亚种群分裂发生在 100-160 kya(在慢速突变率下)或
50
−
80
50
−
80
50-80 50-80 kya(在快速突变率下)。
33
−
35
33
−
35
^(33-35) { }^{33-35} 基于尼安德特人和现代人类中单核苷酸多态性 (SNP) 等位基因频率分布以及短基因组块
36
,
37
36
,
37
^(36,37) { }^{36,37} 中等位基因配置的附加分析也支持分裂后混合的假设。最后,所有这些研究都为古人类基因流入现代人类
8
,
9
,
12
8
,
9
,
12
^(8,9,12) { }^{8,9,12} 提供了证据,但不是相反的。造成这种情况的原因可能是,到目前为止,所有基因组序列可用的古人类都可能早于与现代人类接触的时间。
推断引入片段的方法
寻求识别渗入的方法面临的挑战是区分真正的渗入和共享的祖先遗传变异(图 1)。任意两个种群
单倍型
紧密相连的连续等位基因序列,往往作为一个单元一起遗传。
人类突变率
每一代或每年个体的基因组序列中出现突变的速率(每个碱基对)。目前,这个速率在人类中的确切值是一个争论的话题,大多数估计值从每年
0.5
×
10
−
9
0.5
×
10
−
9
0.5 xx10^(-9) 0.5 \times 10^{-9} 每个碱基对的值到每年的
10
−
9
per
10
−
9
per
10^(-9)per 10^{-9} \mathrm{per} 碱基对值不等。
D
D
D D 统计
基于不同种群对之间衍生等位基因的差异共享的汇总统计量。当应用于全基因组规模时,它们可用于检测与严格的种群树的显著偏差,无需混合或迁移
不完整的世系排序 (ILS)。一种现象,即来自不同种群或物种的两个或多个谱系共享一个共同祖先的时间比种群中它们各自的最近共同祖先更晚,从而导致种群树和基因树之间的不一致。
MRCA 的时间
(TMRCA) 的几代人的时间可以追溯到过去,直到一个等位基因或两个单倍型的两个拷贝共享一个最近的共同祖先 (MRCA)。这通常是一个未知的参数,可以从遗传数据中估计出来。
连锁不平衡
由于低重组率、种群结构和/或选择,沿同一染色体不同位点的等位基因的非随机关联。
S
∗
S
∗
S^(**) S^{*} 统计 基于连锁不平衡模式的汇总统计量,可用于检测渗入的单倍型。 将始终共享一些源自其共同祖先的 DNA 片段,因为两个种群都来自同一种群,因此可能从祖先种群继承了一些相同的 DNA 片段。因此,从不同群体中采样的两个 DNA 片段可能比从同一群体中采样的两个 DNA 序列更晚地共享一个最近的共同祖先 (MRCA)。同样的论点也适用于物种;在这篇综述中,我们通常不区分物种和种群,部分原因是为了避免讨论古人类的物种概念和定义。
Patterson 的 D 统计量和全基因组数据。有几种统计方法可用于从全基因组数据
8
,
38
−
40
8
,
38
−
40
^(8,38-40) { }^{8,38-40} 中识别渗入。最著名的是 Patterson's
D
D
D D statistic
8
,
38
,
39
8
,
38
,
39
^(8,38,39) { }^{8,38,39} ,它测量一对(内组种群)和外组种群中两个种群之间衍生等位基因的过度共享(参见补充信息 S1 (框))。Patterson 的
D
D
D D 统计利用了一个系统发育论点:如果两个内群都没有来自外群种群的任何基因流,那么两个内群中的每一个都应该与外群种群共享大致相同数量的衍生等位基因。在没有渗入的情况下,使用应用于全基因组数据的 “block-bootstrap ”或 “jack-knife ”方法评估偏离预期对称模式的显着性。该统计数据被用作识别人类-尼安德特人渗入的主要证据之一,它表明非洲以外的人群与尼安德特人共享的衍生等位基因比非洲人群多
8
8
^(8) { }^{8} 。
鉴定渗入的特定基因或基因组片段更具挑战性,因为用于评估 Patterson
D
D
D D 统计量显着性的简单重采样方法不适用于较短的基因组区域
40
40
^(40) { }^{40} 。相反,关于特定地区的推断必须依赖于人口模型,这些模型包括有关参数的假设,例如发散时间、有效种群规模和重组率。
系统发育信息和序列分歧。遗传分析中常用的许多统计数据可能会捕获有关渗入的信息。结合用于评估显著性的参数模拟,这些统计量可用于区分不完全谱系排序 (ILS) 和渗入。尽管 Patterson 的 D 统计量(见上文)捕获了系统发育信息,但另一种方法是使用基于序列散度的统计量。渗入的单倍型应该与假定的古源人群具有较低的序列差异,但与其他现代人类个体的序列差异较高。识别渗入片段
41
41
^(41) { }^{41} 的一种方法是计算测试单倍型和古老单倍型的 MRCA (TMRCA) 的最可能时间,以及测试单倍型和第二个现代人类单倍型
41
41
^(41) { }^{41} 的 TMRCA。测试人类单倍型 有一个非常新的 TMRCA,具有古老的种群,但一个非常古老的 TMRCA 具有其他人类单倍型,很可能是从古老种群中渗出的。我们注意到,要将其正式化为渗入测试,有必要对发散时间和种群规模做出具体假设。然后可以使用模拟来确定显著性。
区域长度、连锁不平衡和
S
∗
S
∗
S^(**) \mathrm{S}^{*} 统计量。
如上所述,渗入区域的预期长度取决于自渗入以来的时间。事实上,在简单的假设下,渗入区的长度应该大致服从平均长度
[
(
1
−
m
)
r
(
t
−
1
)
]
−
1
[
(
1
−
m
)
r
(
t
−
1
)
]
−
1
[(1-m)r(t-1)]^(-1) [(1-m) r(t-1)]^{-1} 的指数分布,其中
t
t
t t 是自一部分
m
m
m m 人口被来自另一个人口的移民取代以来的世代数,是
r
r
r r 每个碱基对的重组率(以 Morgans 为单位)。此近似值崩溃的条件详见参考文献 27。渗入的一个决定性特征是,平均而言,它应该产生比 ILS 更长的束。此外,由于束的长度仅取决于
r
,
m
r
,
m
r,m r, m 和 (第一个近似值) ,
t
t
t t 而不取决于有效种群大小,因此使用渗入单倍型的长度提供了一种更稳健的方法来区分渗入和共享祖先变异 (BOX 1)。唯一需要注意的是,渗入的单倍型不能直接观察到,但必须从数据中推断出来。或者,可以使用汇总与单倍型长度相关的信息的统计数据,而无需直接推断单倍型。特别是,长渗入单倍型的存在应该增加长距离连锁不平衡 (LD)。因此,检查 LD 模式提供了一种识别渗入的替代方法。
S
∗
S
∗
S^(**) S^{*} 统计数据 (BOX 2) 提供了一种提取此信息的常用方法,尽管它还包含了有关差异的信息
5
,
6
,
19
,
42
.
S
⋆
5
,
6
,
19
,
42
.
S
⋆
^(5,6,19,42).S^(***) { }^{5,6,19,42} . S^{\star} ,这些信息最初是为了识别与
D
D
D D 统计数据类似的全基因组渗入证据,但不了解供体人群。 在随后的研究中,它还被局部用于识别在强 LD 中携带变异的高度不同的单倍型,以搜索从尼安德特人渗入非非洲人
19
19
^(19) { }^{19} 的区域。
概率模型:HMM 和 CRF。使用模拟来确定汇总统计量显著性的另一种方法是将参数假设直接合并到概率框架中。例如,Prüfer 等人和
9
9
^(9) { }^{9} Seguin-Orlando 等人
31
31
^(31) { }^{31} 都开发了一种隐马尔可夫模型 (HMM) 来检测由古老渗入引入的片段。在这两项研究中,作者使用了来自非混合非洲人和古(丹尼索瓦人或尼安德特人)基因组序列的信息,以及一个测试阶段基因组序列,该序列具有来自非非洲人群的解析单倍型,其中可能包含渗入片段。在 HMM 框架下,基因组中每个 SNP 的祖先都是一个隐藏的随机变量,具有两种状态 - 古态(即渗入)或现代人 - 它们是根据基因组数据估计的。