Just for a Record of Knowledge
来源:Eilbeck, Karen et al. “Settling the score: variant prioritization and Mendelian disease.” Nature reviews. Genetics vol. 18,10 (2017): 599-612. doi:10.1038/nrg.2017.52
外显子组和基因组测序揭示的个体遗传变异以数千和数百万计。人类遗传学的一个基本挑战是分离导致孟德尔疾病表型的一小部分变异(通常是一两个)。
在对受影响的家庭进行测序后,只有不到50%的孟德尔病得到解决:
变体(Variants)优先排序是每个孟德尔疾病发现和诊断工作的核心。简单地说,这是一个确定在基因测试、全外显子组测序(WES)和全基因组测序(WGS)过程中发现的哪些变体最有可能损害基因功能并成为疾病表型的基础的过程。了解对孟德尔疾病的变体进行优先排序的计算方法是必要的。许多工具根据生化、进化、等位基因分离和种群频率特征对潜在的致病变异列表进行优先排序。
负担测试(Burden tests)将优先排序提升到一个新的水平,它通过汇总在给定基因座上观察到的变异来计算基因的负担分数。大多数负担测试软件还会评估潜在破坏性基因型(通过参考在对照人群中相同位点观察到的其他基因型)。
变体注释(Variant interpretation)是将单个变异体与疾病表型直接联系起来的过程,这一过程对临床报告结果和偶然发现以及包括变异体发现和结果回报的研究工作都很重要。
对于非编码突变、结构性变异和同义外显子突变来说,变体的优先排序和注释尤其具有挑战性。
资源:Exome Aggregation Consortium (ExAC)、genome Aggregation Database (gnomAD)、1000 Genomes Project
基因型-表型关联:Online Mendelian Inheritance in Man (OMIM)、ClinVar、工作流程(by ACMG & ACGS)
尽管变体优先排序是孟德尔疾病发现和诊断的核心,但它只是包括基因优先排序的一部分。基因优先化工具使用诸如变异等位基因频率、基因型频率、遗传模型、家族史和病人表型等信息来识别和处理可能与表型相关的受损基因,而不是简单地识别潜在的损害性变异。虽然这似乎是一个微妙的区别,但事实上,从基础算法的角度来看,这是一个根本性的区别。许多基因优先排序工具使用负担测试的方法——这是一个关键的概念,对WES和WGS驱动的发现和诊断工作越来越重要。
损害基因的变体不一定会损害个人的健康。将疾病的因果关系归因于排序靠前的变体仍然是一个不准确的过程。”不确定意义的变体”(VUS)能够概括当前的状况。对变体进行优先排序,识别孟德尔疾病的遗传原因需要从典型的外显子组或基因组中发现的数千或数百万的变体中系统地确定一个或两个致病变体的优先次序。可以想象的最简单的方法是使用序列本体术语,以一种特别的方式快速确定变体的优先次序,其假设是,例如,产生过早终止密码子的变体通常比错义变体更具破坏性。然而,这种简单化的筛选方法是不明智的,因为一个保守性差的基因的终止密码子可能比另一个高度保守的基因的错义变体更容易被容忍。此外,同义突变通过影响剪接和mRNA的稳定性,以及改变蛋白质的构象,与人类疾病关联。
变体注释。我们将遗传变体定义为某一特定基因座上的特定等位基因。变体优先排序的第一步是注释,即描述变体产生的DNA改变的性质和效果的过程。考虑到这一目标,VCF将队列中观察到的遗传变异的报告标准化,并正式确定了一种语法,用来描述对变异优先排序至关重要的注释。变体注释工具将变体与注释的基因模型联系起来,以确定其位置和对转录本的影响。
变体效应。 一个变体的效应描述了它是如何改变包含它的注释参考序列特征的。序列本体(Sequence Ontology, SO)为描述变体效应提供了通用的术语,这使得不同工具之间的注释可以进行比较,序列本体的术语被大多数遗传变体数据库所使用,如ClinVar、dbVar、dbSNP和Ensembl Variation。
复杂性(Complications)。基因模型描述了基因转录本的内含子-外显子结构,对于编码蛋白质的基因,描述其起始和终止密码子。变体注释完全依赖于它们所在的基因模型。然而,基因模型往往是不完整的,并随着时间的推移而改变。此外,人类基因的数量仍然是未知的,许多基因的精确结构仍在争论之中。GenBank和Ensembl都提供人类基因组的参考基因模型。Ensembl试图具有包容性,而GenBank则比较保守,它的基因模型要求更多的同行评议的证据。即使一个基因在这两个数据库都存在基因模型,但他们提供的外显子坐标、转录本编号、起止密码子等往往是不同的。 因此,一个变体在一个供体的基因模型中可能在编码的外显子区,但在另一个模型中却位于内含子甚至基因间区域。可变剪切使变异体的注释更加复杂,因为变异体的影响可以在每个转录本的基础上有所不同。例如,它可能发生在一个转录本的内含子中,而在另一个转录本的外显子中。处理这种复杂情况的常用策略是根据具有最严重影响的转录本来注释变体。这种方法的原理是为了避免遗漏潜在的因果变体(假阴性),而牺牲了丰富的假阳性,这些假阳性可以通过其他的优先排序方法(例如,群体等位基因频率)和人工检查来消除。