近期,英国牛津大学团队连续开发出两项互补的测序纠错系列技术,“同源三聚体标记”(测序后纠错)和“锚固增强”(测序前纠错)技术,分别从分子标记设计和合成源头两个层面出发,协同提升单细胞长读长测序的准确性。 在论文投稿过程中,业内专家点评称在单细胞长读长测序和体细胞变异检测中,这项技术将会大有可为。并认为该团队使用“通用分子标记,CMI”在实验端做验证的策略,是一种巧妙的点子(ingenious idea)。其还指出在目前的论文中,课题组所提供的纠错场景可能局限了这一方法的潜力,事实上它能被用于更加复杂的纠错场景中,例如插入和缺失错误。 在计算上和实验上,本次技术的先进性均得到了验证。假如可以实现量产,它能快速、精确地检出肿瘤生物标志物,也能通过催化方法找到新的药物分子,并优化其结构的速度,并能成为业界一个重要且独立的商业运行单元。 而本次研究的开展始于一项临时实验的提议。德国慕尼黑工业大学博士、英国牛津大学博士后孙鉴锋,是本次论文的第一作者。 当他刚到牛津大学报道的第一天,合作教授亚当·克里布斯(Adam P. Cribbs)刚好于同一天刊发了一篇对于第三代测序纠错技术(scCOLOR-seq)的论文。于是,两人的不少谈话内容都涉及到了测序纠错这一话题。 当天,克里布斯教授在身旁的白板上比划了几下,写下几个二重和三重同源核苷酸字符,并对孙鉴锋说:“我对量子计算很感兴趣,但是我没有相关的理论和计算背景,这个项目难度未知,但我觉得实验上大体可行,数理计算是你的专长,你也许可以做出一番不一样的工作来,要不要试试?” 密码学和信息论算是孙鉴锋本科期间重点专业课之一,他立刻意识到克里布斯教授模棱两可的地方正是著名加密方法“三重冗余模块”算法扩展到非二元系统的应用问题,因此他觉得“可以动工”。 彼时,著名的牛津纳米孔测序技术还没有迭代到最新版本,平均错误率依旧高达 15% 左右,在特定情形下错误率甚至会迅猛激增。 因此,要想在这么高的错误率之下进行纠错,并能实现精准测序着实让人望而却步,在该团队眼中必须得有“妙手回春”的技术才行。 该系列研究的第一项成果“同源三聚体标记”技术的相关论文以《纠正唯一分子标识符中的 PCR 扩增错误,以生成准确数量的测序分子》(Correcting PCR amplification errors in unique molecular identifiers to generate accurate numbers of sequencing molecules)为题发在Nature Methods[1]。 “其实,在更早之前的审稿阶段,他就对我们的成果持积极态度。”研究人员表示。另一位业内同行则评论称:“该技术理论层面的可靠性,在其他领域中也已经得到了验证和支持”。 在“同源三聚体标记”技术发表之后,课题组又讨论了这样一个问题:难道测序之后的序列错误,仅仅是在测序过程中引入的吗?假如在对唯一分子标识符进行测序之前出现问题了怎么办? 这个问题的产生源自于该研究团队在一次单细胞测序实验后对文库中分子数量的异常检测:他们观察到细胞条形码的多样性增多,而分子标记(又称分子条形码)的多样性减少。于是,他们怀疑测序文库的污染可能跟序列的异常截短或是缩进有关。 针对这一问题,该团队又开展了新的研究,借此发现在测序之前:由于微珠上多聚核苷酸 T 的缩进从而导致分子标记被截短,使得微珠上整条序列合成出现问题。 针对此,他们提出一种名为“锚固增强”的技术,将一段由 4 个核苷酸组成的固定序列置于细胞条形码和分子标记之间,从而有效识别分子标记起始位置。 该系列研究的第二项成果“锚固增强”技术的相关论文以《利用插入式锚固寡核苷酸序列提升单细胞转录组学分析》(Enhancing single-cell transcriptomics using interposed anchor oligonucleotide sequences)为题发在Communications Biology[2]。 一方面,鉴于本次技术的可靠性已经得到验证,但是距离批量化生产和应用还有一定距离,因此他们将尝试增强合成同源三聚体的效率,以及优化其在微珠的附着效率,同时也会寻找更多合适的业界合作伙伴。 另一方面,尽管研究团队已经开展过多种计算分析,但是目前领域内依旧没有系统化的计算分析方法和平台。所以,他们会持续开发新的计算应用方法。 如果以上两项计划都能实现,这两项分别用于测序前和测序后纠错的系列技术将有望在揭示罕见病致病机理上进行协同贡献,也有望在已有的疾病知识体系之下挖出新的知识。


