遗传密码的细微变化都可能导致极其严重的疾病和多种多样的病症。人类特征的遗传性自古典时代就开始被描述。在现代医学史上,第一种已知的遗传性疾病是尿黑酸尿症,于 20 世纪初被发现并记录入册,从而让人们认识到先天性代谢缺陷。以人类遗传密码突变和改变为基础的疾病是沉重的负担,遗传性疾病的发病率超过 5%,并是三分之二的流产的背后的原因。除了高度渗透的单基因疾病和大规模的染色体改变之外,许多常见疾病,如心血管疾病等都具有明确的遗传基因原因。将遗传疾病传给下一代的可能性加剧了人们对这些疾病的恐惧。
20 世纪 40 年代末,在镰状细胞性贫血中发现了第一个与疾病相关的蛋白质遗传变异,当时人们发现电泳过程中发生了改变,这种改变与受检患者的疾病状态相对应。随后,在破译了氨基酸的 DNA 密码后,科学家认识到 DNA 变异有可能导致酶的变异,从而导致疾病。在 DNA 测序问世之前,唐氏综合症的病因是 1959 年发现的染色体异常 21 三体性,这是第一个被发现与疾病相关的人类基因变异。从 20 世纪 60 年代开始,可以通过生化方式筛查苯丙酮尿症等遗传代谢紊乱,而无需知道致病基因的位置或序列。 20 世纪 70 年代和 80 年代,桑格测序和重组分子生物学的出现首次使 DNA 序列测定变得广泛可用。在随后的几十年里,直到 2003 年人类基因组计划完成,基因图谱联盟付出了巨大的努力,才发现了一些最严重疾病的致病基因,包括 1983 年首次绘制的人类遗传疾病亨廷顿氏病。随着过去 20 年来外显子组和全基因组测序成本的下降,基因诊断变得越来越可行,即使以前不被认为是遗传疾病的疾病实际上也是基因序列的变化引起的。《人体基因序列的变人与疾病表征》的编制是这些发展进入临床应用的有利工具。
人类基因信息的组成成年人的遗传物质可分为大小、遗传性和多样性各异的部分。线粒体基因组是最小的(仅 16.5 kb),但也是迄今为止最丰富的基因组,它是母系遗传的,在人类群体中差异很小。细胞核中包含的传统人类基因组要大得多,并且含有导致大多数传统遗传疾病的突变。细胞核和线粒体基因组在受孕时就已确定,尽管体细胞突变可能导致嵌合性疾病、癌症甚至衰老。
更广泛地说,适应性免疫受体库是核基因组的一个独特子集,微生物宏基因组仅在受孕后才确定,它们的遗传复杂性(至少以独特蛋白质编码序列的多样性来衡量)远远超过其余的核基因组。适应性免疫系统的 T 细胞和 B 细胞经历体细胞重组,产生的独特蛋白质产物比核基因组的其他基因多几个数量级,共同构成适应性免疫受体库。最后,微生物组中的非人类细胞可能构成所有基因组中最具活力和多样性的部分,其中有一系列不同的物种,主要是细菌和病毒,占据着人类皮肤、性器官、胃肠道和呼吸道的结构化生态位。适应性免疫受体库和微生物宏基因组在个体之间的差异都很大,越来越多的研究旨在了解免疫受体库和微生物组中的遗传变异如何导致疾病病理。
基因治疗模式任何一个环节的破坏,在许多情况下与环境因素相互作用,都可能导致不同种类的遗传疾病。DNA密码的简单性自 20 世纪 60 年代以来就吸引了研究人员和临床医生,他们希望通过纠正基因改变或基因治疗来治愈疾病。自 20 世纪 70 年代初首次成功在人体细胞中异位表达外来基因以来,基因治疗技术不断发展,提高了基因转移的效率、特异性和安全性。这些进展促使美国国立卫生研究院的国家癌症研究所于 20 世纪 80 年代末首次在人体上进行基因治疗试验,此前曾有过几项测有受到监管且最终未发表的基因治疗尝试。
20 世纪 90 年代,基因疗法迅速发展,共启动了 500 多项试验。然而,21 世纪初,由于严重联合免疫缺陷 (SCID) 和代谢性肝病的基因治疗临床试验中患者死亡,基因疗法陷入停滞。21 世纪的第一个 10 年,基因转移的安全性和有效性进一步提高,最终导致新一代基因治疗方法的复苏。2017 年,美国食品药品监督管理局 (FDA) 批准了首个基于离体嵌合抗原受体 T 细胞 (CAR-T) 的 B 细胞恶性肿瘤基因疗法,以及 2017 年首个针对莱伯氏先天性黑蒙所致视力丧失的体内基因疗法。
广义上讲,基因突变可以通过三种一般方式改变:对包含突变的整个基因组区域进行批量替换或选择、在基因组中非靶向插入额外的遗传物质以恢复足够的功能来补偿基因缺陷(非靶向添加),或仅对致病突变或基因改变进行特异性校正(基因编辑)。批量替换是最基本的基因治疗形式(图1)。选择性生殖以及最近的植入前诊断提供了预防性避免核基因组中种系突变的机会。线粒体替代疗法和体外受精可以通过用“第三个父母”替换孩子的整个线粒体基因组来有效纠正线粒体突变。同样,导致肿瘤的体细胞突变可以通过手术从体内批量切除。通过粪便或微生物群落移植,微生物宏基因组的部分内容越来越多地被治疗性地改变。
图 1.基于批量替换或选择遗传区室的基因疗法。(a)可以通过将受影响的母亲卵母细胞的线粒体基因组转移到供体母亲的卵母细胞中来替换它,该卵母细胞含有未受突变影响的线粒体。(b)可以通过对体外受精的合子进行植入前诊断来选择核基因组。然而,对于许多患者来说,一种更可行的基因疗法是非靶向性地引入新的遗传物质,以弥补突变序列丢失或有害的功能(图2)。这种非靶向性遗传物质的添加在模型生物的生殖系转基因中很常见,但重要的伦理问题适当地阻止了人类生殖系的添加性基因疗法。在更具治疗意义的体细胞中,从SV40到逆转录病毒、腺病毒以及现在最突出的腺相关病毒(AAV)假型,连续几代病毒载体已经能够对接受新的、校正遗传物质的体内细胞类型进行更大的控制,最终导致FDA最近批准了一种针对视杆细胞和视锥细胞的特异性AAV2载体。基于 γ 逆转录病毒和慢病毒的独立技术开发路线已实现对造血干细胞 (HSC) 核基因组以及 T 细胞适应性库的有效体外操作,从而产生了同样最近获批的基于 CAR-T 的疗法。
图 2.基于非靶向基因添加或靶向基因编辑的基因疗法。(a)线粒体基因组中的突变基因可以整合到核基因组中,其蛋白质产物被靶向输入线粒体。将遗传物质直接递送到线粒体基因组具有更大的挑战。(b)在人类生殖系核基因组中添加或编辑遗传物质具有严重的伦理问题。(c)在体细胞(例如离体培养的细胞(如造血干细胞和 T 细胞))中进行非靶向添加或靶向编辑。(d)在体内体细胞(如视网膜细胞、肝细胞或肌细胞)中进行非靶向添加或靶向编辑,关键依赖于递送平台将 DNA、RNA 和/或蛋白质货物运送到目标细胞类型。然而,血红蛋白病(第一种通过分子学特征鉴定的遗传病)的基因治疗历史揭示了非靶向基因添加的局限性。在早期试验中,镰状细胞性贫血和其他血红蛋白病患者在将正确的伪血红蛋白拷贝随机添加到其 HSC 基因组中时,红细胞生成过程中对 α 和 β 血红蛋白的严格调控阻止了红细胞的形成。近年来,靶向 RNA 引导核酸酶(如 CRISPR/Cas9(成簇的规律间隔的短回文重复序列/胱天蛋白酶-9))的快速发展,这些核酸酶以早期的锌指核酸酶 (ZFN) 和转录激活因子样效应核酸酶 (TALEN) 靶向核酸酶为基础,为治疗此类遗传病提供了一种简化的方法。通过在突变位点附近产生双链 DNA 断裂,这些核酸酶可以促使细胞通过模板修复来修复损伤,该修复基于单独提供的包含所需序列的 DNA 模板。各种递送技术可以将编码核糖核蛋白 (RNA/蛋白质) 核酸酶复合物 (RNP) 的 DNA 或重组 RNP 本身以及 DNA 模板运送到体外和体内越来越多的靶细胞群中,以纠正特定突变。这些基因编辑技术有望具有纠正基因组中几乎所有突变的通用能力(图 2)。
遗传病困扰了一代又一代的家庭和医生。每个人类基因组区段的独特性质都带来了不同的诊断和治疗挑战。DNA 测序、将蛋白质和 DNA 有效载荷体外和体内递送到特定人类细胞群、插入大量新遗传物质以及现在直接编辑内源性基因位点的技术已经取得了重大进展。越来越多的诊断和治疗方案可以针对所有人类基因组区段,而它们的进一步发展为普遍治愈性基因疗法带来了希望(图 3)。
图 3.基因诊断和治疗的模块化系统。人类所有四个基因区室的基因治疗都依赖于诊断、治疗设计和治疗试剂区室特异性递送的模块化过程。遗传病的诊断目前以下一代 DNA 测序为中心,用于检测线粒体和核基因组中的错误。治疗可以基于基因区室的批量替换或选择,或治疗性非靶向添加新遗传物质,或通过基因编辑靶向纠正致病突变。无论是体内还是体外,针对体细胞中每个基因组区室的递送平台都可以携带具有不同治疗序列或特异性的基因添加和编辑试剂,具体取决于基因诊断。缩写:AAV,腺相关病毒;CRISPR/Cas9,成簇的规律间隔的短回文重复序列/胱天蛋白酶-9;TALEN,转录激活因子样效应核酸酶;ZFN,锌指核酸酶。线粒体基因组线粒体基因组是人体中最小也是最丰富的遗传信息集。保守估计,成年人体内存在超过 1 千万亿个线粒体拷贝,不同的人体组织每个细胞具有零到数千个线粒体,每个线粒体平均有 1 到 2 个 16.5 kb 的线粒体基因组拷贝。人体内的所有线粒体都是由重复的分裂循环产生的,这些分裂源自卵子发生过程中瓶颈最大的原始卵细胞中不到 10 个线粒体,最终是无性繁殖不间断循环的后代,可追溯到第一个真核线粒体共生体。这种之前自由生活的祖先共生细菌可能拥有数千个基因。然而,在数亿年的时间里,线粒体基因通过内共生基因转移相继迁移到相对安全的核基因组中。剩下的 37 个线粒体基因编码 22 个转移 RNA、2 个线粒体核糖体 RNA 和 13 个蛋白质编码基因,这些基因主要编码电子传递链中量子连接的成员。这些基因占基因组的 90% 以上,其余部分由线粒体控制区的非编码元件组成。
线粒体基因组对细胞能量转换至关重要,因此在人类中高度保守,尽管在真核生物中,线粒体基因组的大小和基因含量差异很大。纯化选择推动了线粒体基因组序列的保守性,因为线粒体 DNA 复制的错误率比核复制的错误率大约高 100 倍。考虑到线粒体基因组的紧凑性,插入/缺失 (indel) 和重排等较大范围的基因改变几乎总是无法实现的。在卵子发生过程中,线粒体会经历强烈的纯化选择,大约五分之一的儿童具有新生线粒体突变,主要是同义突变。在体细胞中,线粒体之间连续的裂变和融合循环可能使未突变的线粒体基因组拷贝能够进行持续的纯化选择。线粒体在一生中大量分裂最终导致遗传变化,成人线粒体中的体细胞嵌合体很容易被检测到。老年人的线粒体相对于成人遗传基因组具有数百种遗传变化。
线粒体遗传病线粒体功能至关重要且普遍存在,因此线粒体基因组内的突变会对健康产生巨大且有害的影响。虽然大多数线粒体突变可能会导致卵母细胞无法存活,并在排卵前被淘汰,但每 5,000 个活产婴儿中约有 1 个被诊断出患有肌病和神经病等线粒体疾病。线粒体基因组中每个蛋白质编码基因的种系突变都与临床疾病有关。更有推测称,体细胞线粒体突变的积累与各种衰老疾病有关。
线粒体基因组是第一个被完全测序的人类遗传区段,1981 年,桑格测序宣布确定了整个基因组。如今,全线粒体基因组测序可以通过下一代测序快速完成,尽管线粒体测序并不是新生儿筛查计划的常见组成部分。最近,成人线粒体表现出的遗传嵌合性甚至使人类克隆细胞群的谱系追踪成为可能,这可能有助于诊断与年龄有关的疾病。
线粒体基因治疗线粒体具有独特的遗传性,受精后表型迅速出现,每个细胞中线粒体数量众多,以及线粒体周围的物理和化学障碍,使得针对线粒体基因组的基因治疗特别具有挑战性。同样,线粒体基因的紧凑性使得基于非靶向插入新遗传物质(例如使用病毒载体)到线粒体基因组的策略不切实际。线粒体基因功能的中心地位意味着任何基因治疗可能都必须纠正体内的大多数细胞,有利于生殖系纠正。
人类线粒体基因组体积小且序列高度保守,因此可以用供体的野生型线粒体大量替换含有已知遗传疾病的卵母细胞线粒体,从而产生俗称的三亲婴儿(图 1a)。这种大量线粒体基因组替换实际上是反向进行的:从供体的卵母细胞中取出核基因组,用来自预期母亲的卵母细胞之一的细胞核替换,然后进行体外受精。这种生殖系基因疗法于 2016 年在英国获批,用于治疗遗传性线粒体疾病,并可在由此产生的孩子中实现可遗传的生殖系矫正。
然而,对于出生时就带有新生线粒体突变的患者,种系大量线粒体置换只是他们自己孩子的一种选择。在体细胞中纠正线粒体突变,特别是在足够多的细胞和组织中纠正以达到临床效果,是一项重大挑战(图 2a)。在某些情况下,可以通过使用非靶向病毒载体将线粒体基因整合到核基因组中,这一过程反映了线粒体基因的进化核运动。例如,在莱伯遗传性视神经病变 (LHON) 中,这是一种由 NADH 泛醌氧化还原酶亚基(包括 ND4)突变引起的线粒体疾病,导致青年期出现急性视力丧失,将校正的ND4基因拷贝插入核中可使一些人类患者的视力改善。通过使用经过改造的 AAV 衣壳(该衣壳经过改造后含有内源性线粒体靶向序列),已证明可以将遗传物质非靶向地直接添加到线粒体中(尽管不是直接添加到线粒体基因组中)。将含有ND4(导致 LHON 急性视力丧失的致病基因)校正拷贝的线粒体靶向序列改造的 AAV 病毒注射到患病小鼠的眼睛中,同样可以导致视力改善。
靶向核酸酶(如 CRISPR/Cas9)可实现线粒体基因组的直接基因编辑,尽管尚不清楚微同源介导或同源定向修复 (HDR) 是否在线粒体中常见。更直接的是,当突变仅影响细胞中的一部分线粒体时,受影响的线粒体基因组的靶向切割和线性化可导致突变线粒体相对于健康线粒体的相对丢失,正如使用 TALEN 在体外所证明的那样。然而,总体而言,线粒体基因疗法面临着巨大的挑战,即如何有效地将基因编辑试剂体内递送到足够多的体细胞中的线粒体基质中以实现临床益处。
线粒体基因组包含真核生命起源之初基本共生事件的活体遗迹,除成熟红细胞外,在人体所有细胞中均有多个副本。其剩余基因在细胞能量转移中起着核心作用,其中的罕见突变仅影响约 0.02% 的活产,会导致衰弱性疾病。涉及大量替换受影响卵母细胞线粒体的生殖系基因疗法可能是治疗线粒体遗传疾病的有效方法,尽管仅限于后代。针对线粒体基因组的体细胞基因疗法尚处于早期开发阶段,但它们面临着巨大的物理和生物学障碍。相比之下,核基因的生殖系编辑在生物学和伦理上要复杂得多,而核基因组的体细胞基因疗法则迅速普及。
核基因组经典的人类基因组或核基因组与较小的线粒体基因组具有更大的规模和复杂性,对诊断和基因治疗提出了独特的挑战。人类核基因组含有大约 30 亿个碱基对,分为 22 条常染色体和 XX 或 XY 性染色体各两个拷贝,每组从父母双方遗传一组。只有约 2% 的基因组直接编码大约 20,000 个蛋白质编码基因中的 1 个,尽管非编码元件、着丝粒和端粒等结构元件、启动子和增强子等调控元件以及微小 RNA 和长链非编码 RNA 等功能性 RNA 元件构成了非蛋白质编码基因组空间的很大一部分。此外,三联体重复、短散在核元件 (SINE) 和长散在核元件 (LINE) 等重复和自私遗传元件占人类基因组内容的一半以上。成人体内约有 30 万亿个细胞,每个细胞都拥有一个二倍体核基因组拷贝,无核红细胞、某些多核肌细胞和破骨细胞以及单倍体配子除外。平均而言,两个不相关的人类基因组相差约 0.1%,其中五分之四的差异是由于个体差异造成的,其余五分之一的差异是由于人类群体之间的差异造成的。
种系遗传疾病人类基因组以每年 5 到 10 个基因变化的速度进化。人类 DNA 聚合酶与校对酶相结合,总错误率约为每复制 100 亿个 bp出现1 个 错误的bp,在卵母细胞受精前约 22 轮分裂以及精子细胞数百轮分裂(随父亲年龄而变化)过程中会累积错误。小突变和插入/缺失并不是生殖系遗传变化的唯一类别,DNA 复制和细胞分裂中的错误可导致重复扩增、大量缺失、染色体易位以及常染色体和性染色体非整倍体。然而,在配子形成和受精后,存在着广泛的选择压力,估计有 10-40% 的受精胚胎无法植入,总体而言,40-60% 的受精妊娠无法活产。例如,在 22 条常染色体中,只有 21 号染色体的非整倍性(导致唐氏综合征)与长寿相容,而任何其他常染色体的非整倍性在胚胎形成期间或出生后不久都是致命的。总体而言,每个人类新生儿在新受精胚胎中平均含有 10-20 个来自母体的新生突变和 25-75 个来自父体的新生突变,这些突变有可能发生在功能性蛋白质编码或非编码序列中。除了新生突变之外,每个新生儿还遗传有大约 100 个基因的种系功能丧失单等位基因突变,甚至估计有 20 个基因的双等位基因功能丧失突变。
出生后出现的遗传病通常会影响神经、免疫和代谢系统,而这些系统在子宫内的支持性环境中基本上不受选择压力。在 20,000 个蛋白质编码基因中,超过 4,000 个基因的突变已被确定为导致特定人类遗传病的病因。大约 3,000 个蛋白质编码基因是人类细胞系所必需的,这些基因的功能丧失突变可能与配子发生或早期胚胎发育不相容。对人类种群规模和遗传多样性的估计预测,全球人类种群中已经存在与生命相容的蛋白质编码核基因组中所有可能的单碱基对变化 。对单蛋白遗传病的基因型-表型关系的完整分类是一个可能的长期目标。
然而,核基因组的复杂性远超其蛋白质产物,越来越多的非编码调控和功能性 RNA 元件突变也被确定为导致遗传疾病的原因。此外,2000 年代末和 2010 年代进行的全基因组关联研究 (GWAS) 已将许多遗传基因变异与常见疾病联系起来,尽管 GWAS 的一个标志性发现是每种常见遗传基因变异对常见疾病风险的贡献相对较小。
在 21 世纪第二代测序技术和人类参考基因组问世之前,人们通过对限制性片段长度多态性 (RFLP) 和其他可追踪的遗传变异区域进行仔细的基因图谱绘制,发现了亨廷顿氏病和肌营养不良症等疾病的致病遗传变异 ,甚至基于 RFLP 实现了镰状细胞性贫血和地中海贫血等疾病的诊断检测。如今,临床上通过多种检测方法进行种系遗传诊断。导致生化缺陷的常见遗传疾病通常无需测序即可通过化学方法诊断,例如新生儿苯丙酮尿症和半乳糖血症。传统核型可以诊断大规模染色体异常,单核苷酸多态性微阵列可以检测小规模(但仍有数千个碱基)的缺失。靶向测序面板(通过外显子组测序与确认性桑格测序或直接通过桑格测序进行)是具有一致临床表型的遗传疾病的主要诊断方法。
对于没有明确描述过遗传综合征的患者,对患病个体和父母双方进行诊断性全外显子组测序以及日益流行的全基因组测序,可以揭示多达 40% 患者的致病基因改变。大规模染色体异常可以在出生前从胎盘组织或羊水中诊断出来,这些样本也可用于 DNA 测序。对于临床或遗传上怀疑患有遗传病的个体,母亲血液中的循环胎儿 DNA 提供了一种侵入性较小的遗传诊断方式。辅助生殖技术的进步甚至可以通过在体外受精后细胞分裂的最早阶段去除极少量的细胞来实现基因测序和诊断。这些植入前诊断,加上更传统的父母携带者检测,可以准确诊断出特定核遗传疾病的存在或风险。
在许多情况下,即使在生命的早期阶段,生殖细胞的遗传病也是可以诊断的。治疗性纠正这些信息内容中的错误可以在生殖细胞内进行,也可以在生命后期在受影响的体细胞组织中进行。在每种情况下,基因治疗策略可以分为三类:大量替换整个受影响的核基因组,即使三十亿个碱基对中只有一个碱基对可能致病;非靶向添加外源遗传物质以补偿遗传错误;以及通过基因编辑直接纠正致病突变。
种系基因治疗从广义上讲,患有生殖系遗传病的患者或未来患者受影响的核基因组可通过生殖决策预先解决。在已知某种遗传病携带者率高的社区,如携带 HEXA 基因突变(泰-萨克斯病的病因)的阿什肯纳兹犹太人社区,有效的社区筛查和生殖咨询已将筛查人群中患泰-萨克斯病的儿童比例降至基本为零。同样,基于基因诊断的生殖决策使个别夫妇能够通过使用精子或卵子捐献者的体外受精,以及通过传统的收养来防止遗传疾病的传播。从某种意义上说,所有这些都是解决生殖系遗传突变的批量核基因组策略(图 1b)。
直接向人类生殖系中添加新的遗传物质,或对内源性生殖系序列进行基因编辑,在伦理上是一个重大的举措,截至 2020 年,科学、医学、伦理、宗教和政府界普遍认为这是不恰当的(图 2b)。2018 年,首次公开宣布人类生殖系基因编辑尝试,引起了科学界的强烈愤慨,凸显了政府和科学界进行严格监督和监管的必要性。
体细胞遗传疾病受精时存在的突变会被身体的每个细胞遗传,但基因复制错误会在每个体细胞分裂周期中继续发生,并由于紫外线、辐射和诱变剂暴露等环境因素而不断积累。成熟体细胞类型的细胞分裂次数与该细胞类型发展成肿瘤的倾向之间存在线性相关性,这突显了不同组织最终体细胞中遗传错误积累的不同。肠上皮细胞等细胞类型的干细胞可以经历数百轮分裂,与分裂次数低的成骨细胞或神经元相比,它们更容易引发肿瘤。由于一个细胞中的突变会遗传给未来从该细胞衍生的所有体细胞,因此胚胎发生早期的变化可能导致大片组织甚至整个器官出现有时有害的突变。最终,由于这种体细胞嵌合性,成年人体内的两个不同体细胞可能会有数千个碱基对的差异。
早期发育过程中的体细胞突变可导致许多与生殖系突变相同的遗传疾病,其严重程度取决于嵌合程度和受影响的终末器官。例如,在由OTC基因的 X 连锁隐性突变引起的鸟氨酸转氨甲酰酶缺乏症中,患有生殖系突变的患者如果不进行肝移植,很少能在童年时期存活下来,但患有体细胞突变的患者,即使是那些影响大量受影响细胞类型(肝细胞)的患者,通过改变饮食可以过上相对正常的生活。体细胞突变经历许多与生殖系相同的选择压力,有强有力的证据表明错义突变会被选择。然而,增加细胞分裂率的体细胞突变,尤其是在分化较低的干细胞群体中,可以沿着明确的突变路径进行,直至致癌转化。就结肠癌而言,APC早期驱动突变的获得,随后是增殖增加、KRAS 突变,最后是 p53 突变,这反过来又进一步降低 DNA 复制保真度,引发一系列 DNA 变化,最终导致癌症。更广泛地说,正常组织中体细胞突变在生命过程中的积累,除了增加癌症风险外,还可能导致与年龄相关的功能下降。
DNA 测序通量的进步,特别是高覆盖率的全外显子组和基因组的进步,同样增强了诊断体细胞致癌和其他有害遗传变化的能力。自 20 世纪 80 年代发现肿瘤抑制基因(如p53)和致癌基因(如KRAS)的体细胞突变以来,越来越多的致癌突变被收录入《人体基因序列变化与疾病表征》数据库。随着 2018 年癌症基因组图谱测序项目的结束,估计有 300 个癌症驱动基因中发现了数千个突变 ,只剩下极少数突变需要通过更大规模的癌症队列测序来识别 。肿瘤、癌前病变和健康组织的临床体细胞基因组测序正变得越来越常规,单突变面板正被多基因、外显子组或全基因组测序所取代 。随着进一步的发展,利用无细胞DNA测序等侵入性较小的方法检测早期肿瘤的DNA序列和表观遗传改变,甚至可以将体细胞基因组测序扩展到大规模人群筛查应用。
体细胞遗传疗法针对体细胞基因组的基因疗法可以通过特定的内源性基因编辑和纠正恢复正常序列来纠正遗传缺陷,非靶向地向基因组添加外源性遗传物质以补偿突变,或大量替换体细胞基因组。体细胞基因组中的基因疗法进一步区分为仅需要替换、添加或纠正目标组织(例如肝脏、肌肉或眼睛的组织)中的遗传信息。此外,对于可以在体外培养的某些细胞类型(例如 HSC 和 T 细胞),这些基因疗法可以在体外进行,并将改变的细胞返回到患者体内。但是,对于大多数目标组织,体细胞基因疗法必须克服在体内递送遗传物质和编辑试剂的挑战,同时避免被患者自身的免疫系统排斥。
与生殖系疗法中操作单个细胞相比,由于需要进行基因改变的细胞数量巨大,因此批量替换体细胞基因组中的基因改变同样困难。对于某些疾病,例如由PKD1、PKD2、PKD3和PKHD1基因突变引起的多囊肾病,通过移植更换患病的肾脏可有效去除致病遗传物质,但肝脏等其他器官仍然受到影响。同样,当肿瘤可手术时,从某种意义上说,手术可以批量去除突变的体细胞基因组。通过避免已知的环境诱变源可减少体细胞突变负荷。
体细胞基因组的非靶向添加最早以此命名的基因疗法是基于对体外培养的免疫细胞(特别是 T 细胞和 HSC)的核基因组进行非靶向添加(图 2b )。20 世纪 80年代初,人们成功改造了第一种来自莫洛尼鼠白血病病毒 (MMLV) 的复制缺陷型逆转录病毒,这预示了后来来自人类免疫缺陷病毒的慢病毒载体的出现,大片段的数千碱基的新 DNA 可以被伪随机地引入这些细胞类型中。首次基因转移试验使用 MMLV 衍生的逆转录病毒将异源肿瘤坏死因子 (TNF)-α 表达盒添加到从转移性黑色素瘤患者肿瘤中分离并在体外扩增的 T 细胞中。
虽然与早期未经修改的肿瘤浸润淋巴细胞试验相比,这项首次试验并未带来临床益处,但它引发了随后 30 年间大量 T 细胞和 HSC 的体外添加基因疗法。在首次 T 细胞试验后,在严重联合免疫缺陷症 (SCID) 儿童体外培养的 HSC 中非靶向添加腺苷脱氨酶的正确拷贝,在某些情况下,这些早期基因治疗患者获得了持久且迄今为止终身的治愈。这些体外添加逆转录病毒技术已扩展到当前基于 CAR-T 的疗法中合成 DNA 序列的非靶向整合。
在体外基因添加疗法发展的同时,病毒载体具有靶向特定人体组织类型和递送外源 DNA 的双重功能,已实现向多种体细胞类型进行体内基因添加(图 2b)。肝脏肝细胞一直是活跃的靶组织,作为蛋白质生成工厂,用于添加缺失或功能失调的血液因子。在由循环凝血因子 VIII 和 IX 缺乏引起的血友病 A 和 B 病例中,向肝细胞体内添加新的因子 VIII 和 IX 基因已实现治愈性基因疗法 。从腺病毒到现代工程化的 AAV 血清型和假型,多代病毒递送系统已大大提高了体内体细胞基因疗法的功效、特异性和免疫安全性。由于视网膜具有独特的易接近位置和免疫特权组织状态,因此也经历了大量的基因治疗试验。首个获得 FDA 批准的体内基因疗法确实将RPE65基因的异源拷贝添加到莱伯氏先天性黑蒙患者的视网膜细胞中,从而带来持久的视力改善。
然而,非靶向添加基因疗法受到各种限制。从功能上讲,目前常用的 AAV 载体的基因携带能力仅限于约 4.5 kb,太小,无法编码表达大型内源性蛋白质正确拷贝,例如在极端情况下,编码肌营养不良蛋白所需的 10 kb 以上的互补 DNA,肌营养不良蛋白在肌营养不良症患者中发生突变。同样,早期试验试图将正确版本的 α 或 β 血红蛋白插入镰状细胞性贫血和地中海贫血患者的 HSC,由于红细胞发育过程中对血红蛋白表达的调控不当,导致红细胞生成失败。
更重要的是,本世纪初基因治疗临床试验中患者的死亡凸显了伪随机整合病毒载体的众多安全问题。首先,1999 年,一名患有鸟氨酸转氨甲酰酶缺乏症的患者死亡,该患者因体细胞嵌合而患有轻度疾病,死因是病毒载体在体内将基因货物递送到患者肝细胞时产生了强烈的免疫反应。此外,对新近纠正的、因此被识别为非自身的内源性基因产物的免疫反应可能会限制杜兴氏肌营养不良症等疾病的治疗效果。早期 X 连锁严重联合免疫缺陷症 (SCID) 临床试验中,在离体编辑 HSC 时出现了一系列白血病,揭示了引入非靶向遗传元件(包括驱动异源治疗基因的强病毒启动子)会带来意想不到的后果 。病毒载体拷贝整合到致癌基因(如LMO2)附近,在最初成功治疗多年后,会诱发致癌转化。最后,一名类风湿性关节炎患者在成功接受抗 TNF 诱饵受体基因治疗后,因组织胞浆菌病真菌感染而死亡,这一事件凸显了伪随机添加基因产物调控不当的潜在危险 ;基因治疗的靶向毒性可能会抑制患者发起有效免疫反应的能力。
体细胞基因组中的基因编辑基于纠正目标体细胞类型中的个体致病突变的基因疗法可以通过非靶向基因添加克服许多此类挑战。所有经历细胞分裂的细胞都会尝试通过多种 DNA 修复途径修复 DNA 复制错误,包括 HDR,其中一条染色体上的突变可以通过结合另一条染色体上的同源区域并进行模板修复来纠正。20 世纪 80 年代,HDR 能够在人类细胞系中的特定、用户定义的位点无瘢痕地整合外源 DNA 序列,尽管最初的效率极低。虽然这对于转基因模型生物的产生至关重要,但人类细胞的体内或体外治疗应用仍有待开发出可靶向的 DNA 核酸酶,这种核酸酶可以在邻近基因校正的预定位点产生双链 DNA 断裂。
这些靶向双链断裂将人类细胞中 HDR 的效率提高了许多个数量级,并在 21 世纪初促成了首次使用 ZFN 进行靶向基因编辑试验,以纠正IL2RG中导致 SCID 的突变。21 世纪 10 年代中期,RNA 引导核酸酶(最突出的是 CRISPR/Cas9)的发现和快速发展,使这些基因编辑试剂的开发变得更加简单和便宜。与含有同源臂的校正外源 DNA 模板配对,可以快速设计和合成用于在人类核基因组的几乎任何位点进行内源基因编辑的试剂。甚至可以将 DNA 和蛋白质成分组合成单组分系统,使用 Cas9-逆转录酶融合蛋白以及带有延伸 RNA 序列的引导 RNA,该延伸 RNA 序列包含预期的突变校正而不是同源 DNA 。该过程允许模板修复直接跟随核酸酶识别,而无需额外的 DNA 序列,从而可能简化试剂输送。
事实上,将基因编辑试剂递送到靶细胞中的挑战是更广泛地应用体细胞矫正基因疗法的一大障碍。对于可以在体外培养的 HSC 和 T 细胞群,电穿孔等物理递送方法能够将核糖核蛋白(例如 Cas9-引导 RNA 复合物)和 DNA HDR 模板稳健地递送到靶细胞中 。在 HSC 中,针对 β-血红蛋白中镰状细胞突变的 Cas9 RNPs 的电穿孔,再加上使用 AAV6 载体递送含有正确序列的 HDR 模板,最终实现了对镰状细胞性贫血(第一种分子描述的遗传病)的致病突变的稳健校正。这些校正后的 HSC 能够完全分化,并且至关重要的是,进行红细胞生成。轻松生成新的编辑试剂以针对其他突变可能使该策略广泛应用于造血遗传疾病。除了HSC之外,遗传病的基因矫正治疗还展示了如何使用类似的RNP电穿孔策略(而不是使用非病毒DNA)来直接纠正分化T细胞群(如调节性T细胞)中的致病突变。
通过基因编辑修复内源性遗传序列也为体内体细胞基因治疗提供了新途径。值得注意的是,在肌营养不良症等疾病中,蛋白质产物对于常用的病毒载体来说太大,基因编辑试剂已被设计并成功递送至小鼠模型,以及许多其他快速发展的临床前体内疗法。体内基因编辑进一步凸显了编辑试剂递送的挑战,因为必须将大型蛋白质核酸酶或编码它们的 DNA 序列和矫正 DNA HDR 模板递送至目标体细胞组织。在少数情况下,可能出现仅通过基因切割而非模板修复即可实现治愈性治疗的创造性解决方案。更小的可靶向核酸酶、单组分模板修复系统以及最重要的递送技术的普遍改进的开发,为加速体细胞组织的体内矫正基因治疗带来了巨大希望。
操控其他基因组适应性免疫受体库体细胞亚群除了核基因组外,还包含一个独特的细胞,即适应性免疫系统的 T 细胞和 B 细胞,它们在受孕后通过体细胞重组产生新的抗原受体基因产物。年轻成人的免疫受体库保守估计包含大约 10 11 个独特的抗原受体,产生的单个蛋白质产物比核基因组多出近 6 个数量级,不过库的多样性会随着年龄的增长而下降 。T 细胞库中 T 细胞受体 (TCR) 基因的存在或缺失可导致 1 型糖尿病和多发性硬化症等疾病的发展,而自身反应性 B 细胞受体 (BCR)则是系统性红斑狼疮、重症肌无力和许多其他疾病的基础。在相反的情况下,由于防范自身免疫或癌症微环境中所谓的免疫编辑的调节机制,适应性免疫受体库有时缺乏潜在有用的 TCR 和 BCR,例如对液体和实体肿瘤有反应的 TCR 和 BCR 。
可以通过大量替换整个库或选择性引入所需的 TCR 和 BCR 序列来对核基因组的适应性免疫受体库子集进行遗传操作。这些细胞中的大多数对放射敏感,因此可以通过自体或同种异体骨髓移植大量替换该基因组区室,这种方法已成功用于治疗严重的自身免疫性疾病,如系统性硬化症 。特异性引入所需抗原受体可以靶向难以接种疫苗的抗原,如内源性肽或掩蔽致病表位。自 2000 年代以来,病毒载体已在临床上用于在原代人类 T 细胞的伪随机基因组位点添加新的 TCR 基因。更广泛地说,结合抗体结合特性和 TCR 及共刺激分子信号传导特性的 CAR 已被设计用于将 T 细胞重定向到也在癌症上表达的自身抗原,如 B 细胞标志物 CD19。
理论上,遗传病的基因矫正治疗可以设想未来的个性化治疗,其基础是将针对各种微生物或肿瘤抗原的抗原受体引入癌症和传染病患者的 T 细胞和 B 细胞,或者以消除自身免疫性疾病患者体内现有的针对自身抗原的 T 细胞和 B 细胞为目标。由于免疫受体库的多样性,这些想法的实际应用具有挑战性。鉴定对特定微生物或肿瘤起作用或对特定自身抗原发生反应的 TCR、BCR 或合成抗原受体基因仍然是一项关键挑战。鉴于目前人们对 T 细胞和 B 细胞抗原受体测序的巨大兴趣和进展,随着足够大的受体序列数据库的建立,这些挑战有可能被克服。
微生物宏基因组与线粒体和核基因组相比,人体内蛋白质家族多样性最复杂的遗传区室不是位于人体细胞内,而是位于普遍存在的微生物群的宏基因组中。在人体组织中,成年人的微生物组包含来自大约 1,000 个独特物种的超过 30 万亿个细菌细胞。不同的解剖位置具有不同的微生物组,并且根据部位、个体、时间和疾病状态的不同,其多样性程度也不同。平均每个细菌含有大约 3,000 个蛋白质编码基因,单个人的整体微生物宏基因组可能包含大约一百万种独特的基因产物。微生物宏基因组直到出生后才获得,最初主要通过阴道传递、皮肤接触和母乳喂养从母亲那里遗传。人类宏基因组的遗传内容在个体生命中和个体之间也比线粒体或核基因组更加多样化。两个随机个体之间的微生物组可能存在超过一半的内容差异(尽管在共享当地环境和饮食的同居人类中差异要小得多),而两个无血缘关系的个体之间的核遗传内容差异平均约为 0.1%。
传统上,通过直接离体培养生物体或引入动物宿主后检测特定疾病来测量微生物组中特定致病微生物成分的存在与否。聚合酶链式反应等核酸特异性方法提供了更高的速度和灵活性,可以从可能拥有致病毒素基因的细菌物种中差异地检测出这些基因。在更大规模上,16S 核糖体测序利用核糖体 RNA 的进化保守性来直接测量微生物物种多样性。16S 宏基因组测序最早始于 20 世纪 70 年代,后来通过与下一代测序相结合而得到扩展,可快速确定人类微生物组的属级多样性。随着测序成本的进一步下降,宏基因组 DNA 样本的大量片段化和通过计算组装成物种特异性基因组和转录组,越来越多地允许对宏基因组区室进行确定性采样。
由于分子技术有助于识别不可培养的微生物,研究人员假设人类微生物组的改变与各种疾病的发展有关,这提出了操纵微生物组及其遗传产物可能成为这些疾病的治疗策略的可能性。到目前为止,临床上唯一广泛应用的针对微生物组的治疗方法是,在艰难梭菌诱发的伪膜性结肠炎中,通过粪便移植大量替换耗尽的微生物组。也有人提出,炎症性肠病和其他炎症和代谢性疾病中存在微生物组异常。菌群失调的广义概念认为,微生物组的性质和多样性的改变是这些疾病的诱发因素。为了使用遗传方法恢复多样性,有必要识别受到干扰的特定生物,以及可能导致疾病的生物基因。
可以很容易地使细菌在基因组外质粒上表达外源基因,但由于体内不存在传统实验室选择压力,可能需要直接编辑细菌基因组以维持表达。通过噬菌体载体或整合质粒进行非靶向基因添加以及使用 CRISPR/Cas9 和其他可靶向工具进行基因编辑,已经能够在人类微生物组的细菌物种中在体外发生大规模可遗传改变。在常见的核遗传疾病苯丙酮尿症中,一种经过基因改造可遗传表达苯丙氨酸代谢酶的大肠杆菌Nissle 菌株在口服后表现出持续植入小鼠和灵长类动物微生物组并改善血液苯丙氨酸水平。体外编辑的微生物群落可以像未编辑的治疗性细菌物种一样引入正常菌群。通过针对工程菌株进行有针对性的营养支持,可进一步增强植入效果。
随着将基因编辑试剂靶向体内特定微生物物种的递送方法的改进,这些治疗性微生物基因改变最终可能在体内实现,类似于针对体细胞基因组和适应性免疫受体库的体内基因疗法的目标。噬菌体显著的物种特异性使得能够递送针对致病菌株甚至特定抗生素耐药质粒进行破坏的基因编辑试剂,并且可能还允许添加基因疗法。无论是通过大量更换微生物组、对特定细菌物种进行体外或体内基因编辑,还是重现对正常菌群的生理暴露,改变多样化人类宏基因组的遗传内容都可能为未来的基因疗法研究提供有希望的途径。
关于遗传病的基因治疗策略的共识性意见人类的主要遗传区室在基因组大小、复杂性、遗传性和多样性方面各不相同。线粒体和核基因组中的种系突变常常导致发育障碍,尽管核基因组的巨大规模确保了数千种已发现的单基因疾病存在于不同的环境中。核基因组中体细胞突变的积累是癌症发展的基础,而线粒体中的体细胞突变可能导致衰老。更广泛地说,微生物宏基因组主要在出生后发展,其特点是人类之间的多样性更大,并且在生命过程中变化很大。下一代 DNA 测序的进展使线粒体测序、临床外显子组和全基因组测序以及 16S 和无偏微生物测序得到广泛应用。
这些测序方法揭示的基因变异是基因疗法的可纠正目标。通过使用现代辅助生殖技术,包括线粒体替代疗法和植入前诊断,可以批量处理整个基因组区室,例如线粒体和核基因组。附加体细胞基因疗法始于病毒载体的开发,用于感染可在体外培养的人体细胞,例如 T 细胞,并迅速发展到包括具有特定组织向性的病毒假型的体内应用。最近,CRISPR/Cas9 和相关可靶向基因编辑应用的重大进展,其中特定的致病突变或基因在其内源性位点得到纠正,为更精细的体外和体内基因疗法拓展了视野。
总体而言,过去 20 年来 DNA 测序成本的大幅下降加速了遗传病的诊断。与这些诊断进展相呼应的是,2010 年代靶向基因编辑的意外快速发展,现在已使设计和测试用于纠正遗传变化的特定治疗试剂变得直接且易于获取。基因疗法广泛应用面临的最大持续挑战之一在于通用平台,用于将可定制的基因编辑试剂递送到患者特定遗传病的目标细胞类型和基因组区室中(图 3)。除了直接纠正遗传病外,快速发现能够增强癌症和自身免疫等疾病细胞功能的合成遗传回路的新方法有望在工程体细胞中进一步应用基因治疗。人类遗传区室中的遗传病越来越容易被诊断出来,针对每个区的下一代基因治疗平台将提供灵活和个性化的治疗方案。
要点总结人类含有不同的遗传部分:线粒体基因组;核基因组(包括专门细胞中的适应性免疫受体库)和微生物宏基因组。
针对每个领域的基因疗法基于三大类:受影响基因组的批量替换或选择、非靶向添加新的遗传信息以弥补遗传错误,以及直接基因编辑以纠正致病的遗传变异。
线粒体和核基因组在受孕时就已确定,并且在整个生命过程中保持一致,但体细胞突变的积累和适应性免疫受体库除外。遗传病主要由突变引起。
通过新一代测序诊断遗传病和设计矫正基因治疗试剂目前正被广泛采用。将基因添加或基因编辑试剂与通用递送平台配对以针对体内特定体细胞类型的特定遗传区室仍然是一项艰巨的挑战。