综合新闻

当前位置: 首页  >  正文

【科研动态】生命学院郭安源团队开发目前最大规模的T细胞受体库

时间:2020-10-02     浏览次数:

(通讯员 谢贵燕)9月30日,国际权威学术期刊《核酸研究》(Nucleic Acids Research) 在线发表了生命学院郭安源教授团队开发的目前最大规模的T细胞受体序列数据库。该论文题目为“TCRdb: a comprehensive database for T-cell receptor sequences with powerful search function”。郭安源教授及其博士后雷倩博士为共同通讯作者,生命学院博士生陈思义和硕士生岳涛为共同第一作者。


T细胞受体(TCR)T细胞表面特异性识别抗原和介导免疫应答的分子,是人类基因组中多态性最高的区域之一,决定着人的免疫系统如何适应环境的变化。T细胞受体由抗原识别的可变区域和恒定区域组成,理论上可产生10^15~10^20种不同的克隆类型。所有T细胞的受体总和称为TCR谱。不同身体条件和疾病下的TCR谱会发生很大变化,TCR谱也在一定程度上反应个体免疫谱的状态。郭安源团队的陈思义博士在年初发表了高敏感性的TCR序列中高度可变区CDR3的序列检测方法CATTBioinformatics 2020),该方法可以适用于混合样本或者单细胞样本的TCR-seq或者RNA-seq数据,高灵敏性和准确性的检测TCRBCR序列。

本文中,作者基于上述发表的方法,整合分析最为全面的不同疾病和生理条件下的TCR-seq数据,构建了一个迄今为止最全面的T细胞受体序列数据库TCRdb。该数据库分析了8200多个样本,检测到了近3亿TCRCDR3序列。对每一个样本的TCR,都提供了能够用于发表的精美分析图片。该数据库同时提供了灵活的序列搜索功能(包括模糊匹配和正则表达式匹配搜索),首次满足了在大数据中查询并分析数据的需求。数据库(http://bioinfo.life.hust.edu.cn/TCRdb/)的主要功能模块包括:① 在海量数据中搜索相似或确定的序列,以分析TCR序列的特异性;②游览并分析不同状态下(如肿瘤、感染、免疫等)的T细胞受体序列;③浏览和查询数据库中存在样本的来源、疾病状态和细胞类型。此外,TCRdb中目前包含近1500个新冠样本的TCR谱。该数据库是目前数据最全面,注释最丰富,并能够在大量数据中搜索的TCR数据库。TCRdb的建立有助于T细胞免疫调控和机制的理解,以及免疫治疗相关的研究。

郭安源教授现为生命学院教授、博士生导师,民主党派致公党党员,主要研究复杂疾病生物信息学和基因表达数据的深度挖掘。发展了转录因子与miRNA在复杂疾病中的共调控网络研究方法,开发和持续维护升级了AnimalTFDBmiRNASNPlncRNASNPEVmiRNA等一系列在国际上有一定影响力的专业数据库;针对表达数据开发了一系列深度挖掘方法:如FFLtool共调控分析方法、ImmuCellAI免疫细胞组分分析方法、CATT TCR序列鉴定方法、SEGtool特异表达基因检测方法和CCLA基于表达的癌症细胞系鉴定方法等;将这些方法和数据库应用于在白血病和细胞外囊泡等研究中,发现一些重要调控分子和机制。这些开发的方法和数据库均在实验室网站http://bioinfo.life.hust.edu.cn/可以访问到。

本文受到国家自然科学基金优秀青年基金和科技部重点研发计划项目的支持,在此表示感谢。