由于RNA可以折叠成各式各样的三维结构,蛋白质-RNA之间形成的复合物也如蛋白质-蛋白质复合物一样复杂,因而蛋白质-RNA复合物结构预测与蛋白质-蛋白质复合物结构预测一样仍然很困难。因此,我们开发了自由对接3dRPC(Huang, et al., 2013) 与基于模板PRIME(Zheng, et al., 2016)的方法。该工作首次揭示了蛋白质-RNA复合物结构之间的序列-结构联系,并发现存在一个转变点。随后,我们发现RNA结构比对算法SARA的打分与RNA的长度相关,在某些情况下找不到模板。因此,我们系统地分析了RNA回转半径Rg与长度N的关系,满足Rg ∝ N0.39指标定律,从而定义了一个新的RNA相似性打分函数RMscore。基于RMscore,我们开发了一个不依赖于RNA长度的结构比对算法RMalign(Zheng, et al., 2019),进一步提高了PRIME算法。联合自由对接算法与基于模板的算法,我们提出了P3DOCK的算法(Zheng, et al., 2019)。我们通过序列分析发现了一些识别RNA结合蛋白质(RBP)的重要特征,给实验生物学家提供了寻找RBP的高精度预测工具RBPPred(Zhang and Liu, 2017)与Deep-RBPPred(Zheng, et al., 2018)。在这些工作中,我们发现RNA的结构非常重要,进一步猜测RNA结构可能在编码潜能中发挥重要作用,利用CTD编码特征来描述RNA的折叠结构。研究表明,T2,C0和GC(CTD编码的特征)在RNA编码潜能的预测上具有重要作用。CPPred在人类,小鼠,斑马鱼和酿酒酵母测试集上,具有高的准确性,较目前发表的工具准确性有微弱的提高,然而,CPPRed(Tong and Liu, 2019)在这些物种的短的RNA序列上(sORF)具有特别的优势,比之前开发的工具有一个比较大的提升。
截止2021年12月20日,在PNAS、Plos computational biology、Bioinformatics、Nucleic Acids Research、Communications Biology等期刊上发表论文30多篇,Google Scholar引用总数为1000次,H-index为17。
团队目前共有硕士1名。已经毕业硕士1名和博士5名。相关软件、论文等更多信息见课题组网址: http://rnabinding.com