随着人类基因组计划完成和蛋白质组学研究的逐步开展,科学家们发现人类基因组中编码蛋白质的基因数目比预想中的要少很多。人类基因组中大约有3%的序列编码蛋白质被转录成信使RNA(mRNA),其中大部分此前学界普遍认为是“垃圾”的序列也会被转录成非编码RNA(ncRNA)。因此,寻找和指定mRNA是一项非常有意义的工作。生物信息学领域由此开展了大量的探索研究,从成千上万的碱基中寻觅所需的序列并发展了比较成熟的算法。
2010年以前,学术界普遍认为 mRNA和ncRNA泾渭分明。只有零星的几例研究指出某些ncRNA 实际上是能编码的mRNA,它们包含一些较短开放阅读框(short ORFs, sORFs)。随后几年,顶级期刊大量报道长非编码RNA(lncRNA)包含编码微肽的sORFs。后来发展的核糖体剖析新方法与 RNA 深度测序技术相结合,发现还有大量的sORFs被忽视了。此前,大部分搜寻 mRNA 的算法限于300个核苷酸以上,即至少翻译100个氨基酸。这一缺陷导致经典的基因注释软件对一些包含sORFs的长非编码RNA进行了错误分类。
2月11日,《核酸研究》(Nucleic Acids Research) 在线刊发了我院刘士勇副教授研究团队题为《CPPred:基于RNA序列全局描述的编码潜能预测工具》(CPPred: coding potential prediction based on the global description of RNA sequence)的研究论文,报道了一种评估RNA编码潜能的理论计算方法CPPred。该方法基于RNA结构可能在编码潜能中发挥重要作用这一猜测,利用CTD编码特征来描述RNA的折叠结构。研究表明,T2,C0和GC(CTD编码的特征)在RNA编码潜能的预测上具有重要作用。CPPred在人类,小鼠,斑马鱼和酿酒酵母测试集上,较目前发表的工具准确性有微弱的提高。但CPPRed在这些物种短的RNA序列上具有特别的优势,与之前开发的工具相比有一个较大的提升。
我院2015级博士生童晓雪为论文第一作者,刘士勇副教授为论文通讯作者。该工作得到国家自然科学基金、863项目、自主创新项目和NSFC-广东联合基金的资助(广州超级计算机中心)。