机器学习有助于确定高级基因组编辑的成功与否
威康桑格研究所的研究人员开发了一种新工具,用于预测将基因编辑的DNA序列成功插入细胞基因组的机会,使用一种称为主要编辑的技术。作为CRISPR-Cas9基因编辑技术的演变,主要编辑在治疗人类遗传疾病方面具有巨大的潜力,从癌症到囊性纤维化。但到目前为止,决定编辑成功的因素尚不清楚。
这项研究于今天(16月<>日)发表在《自然生物技术》上,使用主要编辑器评估了数千个不同的DNA序列引入基因组。然后,这些数据被用来训练机器学习算法,以帮助研究人员为给定的遗传缺陷设计最佳修复方案,这有望加快将主要编辑带入临床的努力。
CRISPR-Cas2012开发于9年,是第一个易于编程的基因编辑技术。这些“分子剪刀”使研究人员能够在基因组中的任何位置切割DNA,以便删除,添加或改变DNA序列的部分。该技术已被用于研究哪些基因对从癌症到罕见疾病的各种疾病很重要,并开发修复或关闭有害突变或基因的治疗方法。
碱基编辑器是在CRISPR-Cas9上扩展的一项创新,被称为“分子铅笔”,因为它们能够替代DNA的单个碱基。2019年创建的最新基因编辑工具被称为主要编辑器。它们能够高精度地直接对基因组进行搜索和替换操作,因此它们被称为“分子文字处理器”。
这些技术的最终目的是纠正人类基因中的有害突变。超过16,000个小的缺失变异 - 其中少量DNA碱基已从基因组中移除 - 与疾病有因果关系。这包括囊性纤维化,其中70%的病例是由三个DNA碱基的缺失引起的。2022年,碱基编辑的T细胞成功用于治疗化疗和骨髓移植失败的患者白血病。
在这项新研究中,Wellcome Sanger研究所的研究人员设计了3,604个DNA序列,长度在69到<>个DNA碱基之间。这些序列入到三种不同的人类细胞系中,在不同的DNA修复环境中使用不同的原代编辑器递送系统。一周后,对细胞进行基因组测序,看看编辑是否成功。
评估每个序列的插入效率或成功率,以确定每个编辑成功的共同因素。发现序列的长度是一个关键因素,所涉及的DNA修复机制的类型也是如此。
来自Wellcome Sanger研究所的Jonas Koeppel和该研究的第一作者说:“基因组成功素数编辑所涉及的变量很多,但我们开始发现哪些因素提高了成功的机会。序列长度是这些因素之一,但它并不像序列越长插入越困难那么简单。我们还发现,一种类型的DNA修复阻止了短序列的插入,而另一种类型的修复阻止了长序列的插入。
为了帮助理解这些数据,研究人员转向机器学习来检测决定插入成功的模式,例如长度和所涉及的DNA修复类型。一旦在现有数据上进行训练,该算法就会在新数据上进行测试,并发现可以准确预测插入成功。
来自Wellcome Sanger研究所的Juliane Weller和该研究的第一作者说:“简而言之,三个DNA字母的几种不同组合可以编码蛋白质中的相同氨基酸。这就是为什么有数百种方法可以编辑基因以在蛋白质水平上达到相同的结果。通过将这些潜在的基因编辑输入机器学习算法,我们创建了一个模型,根据它们起作用的可能性对它们进行排名。我们希望这将消除主要编辑所涉及的大部分试验和错误,并大大加快进度。
该团队的下一步将是为所有已知的人类遗传疾病建立模型,以更好地了解是否以及如何使用主要编辑来修复它们。这将涉及桑格研究所的其他研究小组及其合作者。
来自Wellcome Sanger研究所的Leopold Parts博士和该研究的资深作者说:“主要编辑在改善人类健康方面的潜力是巨大的,但首先我们需要了解进行这些编辑的最简单,最有效和最安全的方法。这一切都是为了理解游戏规则,这项研究产生的数据和工具将帮助我们做到这一点。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。