蛋白质结构预测

2024-06-26

蛋白质结构预测(精选十篇)

蛋白质结构预测 篇1

20世纪60年代后期,Christian Anfinsen[1]首先发现去折叠蛋白或者说变性蛋白质在允许重新折叠的实验条件下可以重新折叠到原来的结构,这种天然结构对于行使生物功能具有重要作用,大多数蛋白质只有在折叠成它们天然结构的时候才能具有完全的生物活性。自从提出蛋白质折叠的信息隐含在蛋白质的一级结构中,科学家们对蛋白质结构的预测进行了大量的研究,分子生物学家将有可能直接运用适当的算法,从氨基酸序列出发,预测蛋白质的结构。

1 蛋白质结构预测研究进展

1.1 研究方法简介

当前蛋白质结构预测方法按照其对模板的依赖与否主要分为两类:模板依赖模型(template-based modeling)以及从头预测方法(ab initio)或称自由模型(free modeling)。

模板依赖模型又可以分为两种模型:同源模型(或称比较模型)和折叠识别模型(又称穿线法)。两种方法的差别在于模板的同源度。同源模型所使用的模板拥有较高的同源度,序列相似度一般大于30%;折叠识别模型所使用的模板为远程同源关系。两种方法所采用的预测步骤基本一致:(1)搜索结构模型的模板:即为待预测的蛋白质序列寻找具有同源性的已知结构蛋白质作为模板。(2)序列比对:将目标蛋白质的序列与模板蛋白质序列进行比对,使目标序列的氨基酸残基与模板蛋白质的残基匹配。(3)建立骨架:将模板结构的坐标拷贝到目标序列,仅拷贝匹配残基的坐标。通过这一步建立目标蛋白质的骨架。(4)构建目标蛋白质的侧链及环区:可将模板相同残基的坐标直接作为目标蛋白质的残基坐标,对于不完全匹配的残基,其侧链构象是不同的,需要进一步预测。其中前两步是预测方法的关键。

当目标序列没有同源结构时,进行蛋白质三维结构预测就必须使用从头预测方法。从头预测方法预测蛋白质三级结构一般由下列3个部分组成:(1)一种蛋白质几何的表示方法:由于表示和处理所有原子和溶剂环境的计算开销非常大,因此需要对蛋白质和溶剂的表示形式作近似处理,例如,使用一个或少数几个原子代表一个氨基酸残基;(2)一种势能函数及其参数:或者一个合理的构象得分函数,以便计算各种构象的能量;(3)一种构象空间搜索技术:必须选择一个优化方法,以便对构象空间进行快速搜索,迅速找到与某一全局最小能量相对应的构象。其中,构象空间搜索和能量函数的建立是从头预测方法的关键。

1.2 模板依赖模型

通过分析PDB数据库,当蛋白质序列相似度在30%~50%左右时,序列的结构相似程度超过80%,差别主要集中在环状区域,这也是预测出现的错误主要集中的区域。当蛋白质序列相似度只有20%~30%时,结构相似度只有55%左右,甚至更低。特别是当模板与目标序列拥有相似的功能区域与特异性功能区域时,值得注意的是,除了功能区域的保守程度明显高于其他区域,功能区域建模的精确度并不明显比其他区域高[2]。当目标序列与模板为远程同源时,预测精度只有6左右。有鉴与此,适用于远程同源的穿线法成为了模板依赖模型研究的主要方向之一。

通过CASP(Critical Assessment of Structure Prediction)实验结果可知,同源模型所构建的模型可以达到比较高的精度[3]。当目标序列与模板间的相似度超过50%以后,预测的结构与实际结构之间Cα原子的RMSD值可以达到1。为了解决环状区域的误差,一些方法采用复合的方法来提高预测精度[4,5]。

对于模板依赖模型,预测的关键步骤是前两步,而这两个步骤是紧密相联系的,必须采用有效的序列比对方法才能找到合适的模型。在过去的十五年里,发展了很多方法。如PPAs(profile-profile alignments)[6,7]、PSI-blast[8]、隐马氏模型(HMMs)[9,10]等。其中PPAs是最经常使用的方法之一。PPAs使用多重序列比对(MSA)寻找模板,因而具优势。显然这增加了寻找到正确模板的几率[11]。同时结构信息也被用于提高预测的正确率。例如,如果已知的多重序列属于同一个蛋白质家族,基于结构重叠的排列可以提高所建立模板的准确度。张阳等[12]的实验结果表明在复合了结构信息以后,序列PPAs的精度可以提高5~6%。在最近的CASP比赛中采用PPAs的预测方法取得了不错的成绩。

由于不同的比对方法表现各有差异,没有一种方法在所有的情况下都是最出色的,因此,便出现了元数据服务器(meta-server)[13,14]。该方法需要创建一种全局的评分标准,然后创建不同的模型进行评价,选取最优结果。模型的建立一般采取两种策略:(1)使用各种不同的预测方法建立模型;(2)创建不同的结构,例如将原始片段进行重组。在以前的实验中元数据服务器在各种实验中都取得了非常好的成绩[15,16]。

2.3 从头预测方法

使用从头预测方法进行蛋白质结构预测,最自然方法就是根据原子的物理化学性质,利用分子动力学方法进行蛋白质折叠的模拟。但是这种方法存在一些问题:首先,分子动力学方法计算全原子模型需要大量的计算。其次,大分子在液体环境中的势能函数表示的问题一直没有一个一致认同的解决方法。因此需要对模型进行相应的简化。

2.3.1 蛋白质几何的表示方法

限制蛋白骨架构象中可采取的自由度是在模拟过程中简化蛋白质的一种方法,其中一种限制是Cα只允许位于二维或三维格子(网格)的位置上。这种简化方法大大减少了一个蛋白质可以采取的构象数目。于是,对于一个中等大小的多肽链,我们可以对它的构象空间进行穷举搜索,直到找到能量全局最小的构象。而对于比较长的多肽链,简化的格点模型可以使非穷尽的搜索方法对所有可能的构象进行较大比例的取样,因此可以比较准确地估计出能量全局最小的构象[17]。虽然使用格点模型,本身所能达到的精确度比较低,但是其计算上的优点使其在低精度预测上依然有很大的发展[18,19]。

2.3.2 势能函数

势能函数的构建从本质上来讲可以分两类:分子力学方法和统计学方法。分子力学方法假设正确的蛋白质折叠对应于最低能量的构象。分子力学势能是原子坐标的函数,其极小值对应于原子体系的局部能量最小点。分子力学中的势能参数有各种来源,包括从头计算和半经验量子化学计算结果、氨基酸和小分子的实验观察结果等。分子力学应用经验势函数,即力场方法模拟分子的结构,计算分子的性质。蛋白质结构预测常用的大分子力场有:CHARMM[20],OPLS/AA[21,22],和AMBER[23]等。尽管计算量很大,基于分子力学的势能函数在计算高分辨率结构方面依然有很大的应用[24,25]。

另外一种方法就是根据一些已知结构的蛋白质构象为一个未知结构的蛋白设计一个经验性的伪能量函数。通常,为得到这种经验性的能量函数表达式,我们首先要选择一系列已知结构的蛋白质,然后对于每一个氨基酸,采用统计学方法分析在三维空间上与其相邻的氨基酸。可以根据不同氨基酸的相对位置得到一个得分矩阵。依据这种方法在计算上非常高效,同样也可以被用于全原子模型[26]。

在CASP7中张阳[27]的TASSER表现得最为出色,其采用的势能函数就是基于统计学原理。而在历届的CASP实验中都表现非常出色的ROSETTA[28,29]采用的势能函数是两者结合的办法。ROSETTA采用简化模型,使用经验势能函数组装蛋白质结构的主链;然后采用全原子模型,根据分子力学的势能函数,利用简化的蒙特卡洛算法进行空间构象搜索。

2.3.3 势能搜索方法

对于势能的搜索有多种方法。常用的方法是梯度下降法,其中最陡下降法是一种最基本的优化算法。用这种方法可以迅速向极小点靠近,但接近极小点时,会产生振荡,收敛速度慢。共轭梯度法也是一种基于梯度的方法,其收敛的速度快,但是更容易陷入能量局部极小点。牛顿-拉普森方法是另一类能量优化方法。梯度方法在计算时使用的是一阶微分,而牛顿-拉普森方法除使用一阶微分外,还计算二阶微分。应用该方法能够迅速收敛,但是计算量非常大。蒙特卡罗算法是一种随机采样的方法,通过该方法可以期望找到非常接近于全局能量最优的构象。ROSETTA就是采用的高度简化的蒙特卡罗算法。同时也有用模拟退火方法[30]、遗传算法[31]、基于模型的搜索方法[32]等进行蛋白质构象搜索和结构预测。

2.3.4 研究进展

尽管困难依然存在,从头结构预测依然取得了显著的进展。Yong Duan和Peter Kollman[33]里程碑式的使用分子动力学模拟计算了绒毛蛋白头部的36个氨基酸。其精度达到了4.5。ECEPP/3[34]采用复合的模型也取得了很好的结果。该方法先采用只包括主链和残基中心的简化模型构建骨架,然后采用全原子模型进行计算。在CASP6中该方法计算的103个氨基酸残基的T0230RMSD值仅7.3。Christodoulos Floudas[35]等在预测一个由102个氨基酸残基组成的蛋白质序列时,达到了5.2。以ROSETTA和TASSER为代表的的方法在最近的CASP比赛中表现极为出色,在CASP6中预测的T0281序列与其实际序列间RMSD值仅有1.6。表明在完全了解蛋白质折叠的物理化学机制,特别是疏水作用机制前,基于统计学的方法依然预测方法发展的主要方向。

3 制约因素

3.1 模依赖模型的制约因素

当使用模板依赖模型特别是穿线法进行结构预测的时候,有一些关键因素制约了其精度:第一,模板定义仍不精确,到目前为止还没有哪个团队能够识别出全部模板。第二,即使是对于已经检测出进化关系的序列,如何进行排列依然是个挑战。第三,尽管同源序列有许多相同的特征,但在模板中不一定有等量的残基比例。第四,尽管结构的等同序列是相似的,但是亲缘越远相似度越低。由于各种方法本身的局限性,因此出现了元数据服务器这样采用多种算法同时预测的方法。在关键的问题解决之前,采用多种算法以弥补单个算法的缺陷依然是较为可行的方法。

3.2 从头预测法的制约因素

由于一些尚未解决的问题,完全依赖物理力学以及能量函数从头开始预测蛋白质结构的方法由于种种原因往往不能得到令人满意的结果。首先,到目前为止,我们还没有完全了解究竟是哪些力决定了蛋白质的折叠过程,同时这些力之间又是如何相互作用的。即使有了一些力场,但是,力场参数不精确。其次,这种方法需要考虑蛋白质中所有原子之间以及所有原子与周围溶剂之间的相互作用。对于实际大小的多肽,由于计算量太大,这种方法其实并不可行。实际上,也没有对溶剂处理比较好的方法。再一方面,构象搜索过程容易陷入局部能量极小点,而且自然折叠的蛋白质结构与一般蛋白质构象之间的能量差值比较小,因此,通过计算发现蛋白质的自然折叠结构到目前为止依然非常困难。因此可以避免使用力场及溶剂相互作用的方法,即采用统计学原理的势能函数成为了重要的研究趋势。

4 前景展望

到目前为止,我们还不能通过蛋白质的物理化学性质来描述其折叠规则。预测蛋白质结构很大程度上还是依靠PDB数据库中的信息对目标序列进行分析,例如,蛋白质结构间的相似度,进化保守性等。最近的实验结果表明,当同源性较高的已知结构存在时,全原子模型的RMSD值可以达到2.3。但是目前采用穿线法进行预测的目标结构与已知结构之间的同源关系较远,无法达到另人满意的精度。随着更多蛋白质结构的测定,PDB数据库的完善,在使用模板依赖模型进行预测时可以找到更多同源度更高的已知结构,我们有可能由此解决蛋白质结构预测问题[36]。今后的研究需要解决模板依赖模型的主要瓶颈问题:如何进行排列以及如何正确的定义模板。随着模型精度的提高,其在药物筛选及生物学功能测定等领域将会具有极大的应用前景。

从头预测方法是蛋白质结构预测最具挑战性的方法,也是彻底解决问题的方法。尽管纯物理方法的势能函数在了解蛋白质折叠路径上有明显的优势,现在最成功的方法却是物理势能函数与统计学势能函数相结合的方法。尽管对一些小蛋白质的预测取得了成功,同时精度也有很大的提高,但是从头预测方法的一些根本问题并没有解决,高度的计算复杂性使得预测方法只能适用于小片段的蛋白质,其根本原因是:我们尚未找到接近自然本质的势能函数以及有效的搜索方法。随着研究的深入,势能函数构建特别是疏水作用的表达必然取得突破性进展。而随着计算机技术的发展,由于计算量而造成的预测长度的瓶颈终将被突破,大分子蛋白质结构的从头预测将成为可能。新一届的CASP8比赛正在进行中,相信在许多关键问题上会有所突破,让我们拭目以待。

摘要:蛋白质结构预测是生物信息学当前的主要挑战之一。按照蛋白质结构预测对PDB数据库信息的依赖程度,可以将其划分成两类:模板依赖模型和从头预测方法。其中模板依赖模型又可以分为同源模型与穿线法。本文介绍了各种预测方法主要步骤,分析了制约各种方法的瓶颈,及其研究进展。同源模型所取得的结构精度较高,但其对模板依赖性强;用于低同源性的穿线法是模板依赖的模型重要的研究方向;从头预测法中统计学函数与物理函数的综合使用取得了很好的效果,但是对于超过150个残基的片段,依然是巨大的挑战。

蛋白质结构预测 篇2

脂酶(Lipase,EC3.1.1.3)是普遍应用于皮革、饲料及生物柴油工业的工业酶制剂,具有广泛的应用价值.目前对植物来源的脂酶研究较少.本研究用在生物柴油中具有应用前景的`油料植物--麻疯树(Jatropha curcas)作为研究对象,克隆了该物种的脂酶基因(JcLIP).通过多序列比对并结合物种的亲缘关系设计了具有较高特异性的简并引物,通过使用RT-PCR和lRACE技术,最终获得了麻疯树脂酶基因的全长序列并成功地在大肠杆菌中表达,酶活测定结果表明,麻疯树脂酶在大肠杆菌中表达在包涵体中,但是能产生具有活力的蛋白质,酶活约为0.8 U・mL-1.结构预测和比较表明,JcLIP蛋白质具有脂酶的结构核心和催化活性中心,而在非核心区具有较毛霉脂酶更多的插入和随机卷曲,这可能是决定二者之间酶活差异的重要原因.

作 者:王小行 彭峰 牛冬云 李钢 陈放 Xiaoxing Wang Feng Peng Dongyun Niu Gang Li Fang Chen 作者单位:王小行,陈放,Xiaoxing Wang,Fang Chen(四川大学生命科学学院,成都,610064)

彭峰,牛冬云,李钢,Feng Peng,Dongyun Niu,Gang Li(四川川大光耀生物工程有限公司,成都,610065)

蛋白质结构预测 篇3

关键词:坦布苏病毒;囊膜蛋白;二级结构;B细胞表位

中图分类号: S858.335.3文献标志码: A文章编号:1002-1302(2014)06-0166-03

收稿日期:2013-09-13

基金项目:国家自然科学基金(编号:31172345);江苏省农业科技自主创新资金[编号:CX(12)5048]。

作者简介:韩凯凯(1983—),男,河南新乡人,博士,助理研究员,主要从事家禽病毒分子生物学研究。E-mail:hankk0917@126.com。

通信作者:李银,博士,研究员,主要从事家禽疫病流行病学和防治相关的研究。E-mail:muziyin08@163.com。2010年春季以来,上海、浙江、江苏等地相继暴发了一种導致鸭鹅产蛋量急剧下降的新发疾病,发病鸭鹅主要表现为高热、运动障碍、食欲下降甚至废绝、产蛋下降甚至停止,死亡率可达 5%~10%[1]。其典型病理变化表现为鸭鹅的卵巢先发生出血、萎缩、破裂,患病后期出现神经症状,倒地震颤,最终衰竭死亡。该病传播迅速、波及面广,几乎席卷了整个水禽养殖密集地区,给我国鸭鹅养殖业造成了巨大损失[2]。目前已证实,引起该病的病原为坦布苏病毒(Tembusu virus,TMUV)[3]。坦布苏病毒属于黄病毒科(Flaviviridae)不分节段的单股正链 RNA 病毒,含有单一的开放读码框,编码 结 构 蛋 白(C、 PrM、E)和 非 结 构 蛋 白(NS1、NS2A、NS2B、NS3、NS4A、NS4B、NS5),其中E蛋白是坦布苏病毒的囊膜蛋白,由 500个氨基酸组成,在病毒的吸附、融合、细胞趋向性、病毒毒力和诱导保护性免疫反应中起重要作用[4]。测定E蛋白的晶体结构发现,它在空间上可以形成3个不同的结构域(Ⅰ、Ⅱ、Ⅲ区)。在乙型脑炎病毒E蛋白抗原表位研究中,Kolaskar等认为,E蛋白的三维结构域Ⅲ(292~402 aa)集中许多抗原中和表位[5]。Seif等通过分段表达E蛋白,证明了中和表位存在于 E373-399位的27个氨基酸序列内[6]。Wu等研究发现,JEV的中和位点主要集中在EⅢ的E307-309、E327-333、E386-390这3个区域内[7]。由于该病毒的发现时间不长,其主要蛋白抗原表位研究尚未见报道。有学者提出,蛋白质的二级结构、亲水性、柔韧性、抗原性、表面可及性等特性与B细胞抗原的表位分布存在密切联系[8]。本试验首次应用生物信息技术对鹅坦布苏病毒(goose Tembusu virus,GTMUV)E蛋白基因推导的肽链进行蛋白质二级结构和B细胞表位的预测分析,旨在为坦布苏病毒E蛋白功能的研究、抗体的制备及分子疫苗的设计等提供理论基础。

1材料与方法

1.1试验材料

预测所使用的坦布苏病毒毒株来自鹅源JS804株,其病毒开放阅读框氨基酸序列由笔者所在实验室测定,共有500个氨基酸残基,GeneBank登录号为JF895923。

1.2试验方法

先用单参数对毒株E蛋白的结构及性质进行预测,再采用不同的参数对E蛋白的二级结构及B细胞表位进行综合预测和分析。

1.2.1GTMUV E蛋白二级结构预测应用DNAStar软件的protean模块进行二级结构预测。采用Chou-Fasman法从氨基酸残基的晶体结构来预测蛋白质的二级结构;用Garnier-Robson法计算特定氨基酸残基在特定结构内部的可能性;用Karplus-Schultz法预测蛋白质骨架区的柔韧性。其中各参数的意义见相关文献[9-10]。

1.2.2GTMUV E蛋白B细胞抗原表位预测用DNA Star软件Protean程序预测B细胞抗原表位;用Kyte-Doolittle方法,同时依据氨基酸组成预测蛋白的亲水区和疏水区;用Emini方法预测特定区域于蛋白质表面的可及性;用Jameson-Wolf法预测蛋白的抗原指数,同时根据http://tools.immuneepitope.org/tools/bcell/iedb_input网址中的Kolaskar-Tongaonkar法预测蛋白的平均抗原表位指数。结合蛋白的亲水性、表面可及性、柔韧性、抗原指数等对测定结果进行综合分析。综合预测结果,预测鹅坦布苏病毒E蛋白的潜在优势B细胞抗原表位,其中各参数的意义参考相关文献[11-13]。

2结果与分析

2.1GTMUV E蛋白的氨基酸序列

鹅坦布苏病毒E蛋白基因编码500个氨基酸,其理论分子量为54.38 kDa,理论等电点pI为7.32,存在跨膜区域。通过http://prosite.expasy.org/scanprosite/在线服务器预测表明,该蛋白有N_糖基化位点、蛋白激酶C磷酸化位点、酪蛋白激酶II磷酸化位点和N-豆蔻酰化位点。

2.2GTMUV E蛋白二级结构的预测

采用DNAStar软件的Chou-Fasman法、Garnier-Robson法以及Karplus-Schultz法对E蛋白的二级结构进行预测,结果见图1。

nlc202309012119

Garnier-Robson法预测结果显示,E蛋白有14个α-螺旋,32个β-折叠区域。Chou-Fasman法预测结果显示,E蛋白有16个α-螺旋,23个β-折叠区域。2种方法预测出的α-螺旋均较β-折叠数量少;2种方法预测的α-螺旋共有12个,分别位于41~57、79~81、87~92、117~120、133~144、157~165、179~181、239~252、261~267、285~296、412~417、468~478区段上;2种方法预测的β-折叠区域共有20个,分别位于1~4、20~25、31~36、62~38、166~170、186~189、201~205、270~274、299~302、310~314、322~328、338~341、254~359、381~386、391~397、423~425、435~438、443~448、482~486、491~496区段上。同时发现,Garnier-Robson法预测的β-转角区域远远少于Chou-Fasman法,Gamier-Robson法预测的无规则卷曲分布区段相对集中,主要位于15~17、145~148、226~239、456~461区段上。

2.3柔韧性区域分析

利用Karplus-Schultz法预测E蛋白骨架区的柔韧性,由结果可知,E蛋白骨架区含有分布较均匀的柔韧性区域,肽链中具有较高表面可及性的区域主要在62~78、92~104、225~239、273~286、313~322、362~370和399~416区段上(图2)。由于这些蛋白肽段的柔韧性较大,发生扭曲、折叠的概率较高,因此形成表位的可能性较大,容易与抗体进行嵌合。

2.4E蛋白的B细胞抗原表位预測分析

2.4.1E蛋白的亲水性预测分析利用Kyte-Doolittle方法预测E蛋白的亲水性,结果显示,E蛋白具有较高的亲水性,亲水性区域的分布较均匀,主要分布在E蛋白肽链的36~45、60~104、119~137、147~165、174~199、207~251、275~309、310~320、391~405和475~483区段上(图3)。B细胞抗原表位多位于蛋白外侧,而亲水氨基酸残基多位于蛋白表面,因此该区段位于蛋白表面的可能性最大,作为抗原表位的概率也最高。

2.4.2E蛋白的表面可及性预测分析利用Emini方法进行E蛋白的表面可及性分析,结果表明,E蛋白肽链中具有较高表面可及性的区域在7~12、34~41、80~89、123~126、130~136、148~163、233~239、245~250、315~319、392~402和476~481区段上(图4)。由于这些区域可能位于蛋白分子表面,因此有可能形成表位。

2.4.3E蛋白的抗原指数及抗原表位指数预测分析应用DNAStar软件,采用Jameson-Wolf方法对E蛋白的抗原性进行预测。从图5的分析可见,E蛋白存在有多个潜在的抗原表位位点,具有较高抗原指数的区域在6~19、26~31、33~44、61~89、92~105、108~115、118~137、144~159、172~177、179~186、189~199、226~251、257~262、273~301、312~322、330~339、344~355、376~383、388~395、397~418和475~484区段上。Kolaskar-Tongaonkar法预测的E蛋白平均抗原表位指数为1. 027,详见图6。

2.5E蛋白B细胞抗原表位综合预测

通过对鹅坦布苏病毒E蛋白的二级结构、亲水性、柔韧性、抗原指数、表面可及性等参数分析显示,若抗原表位指数≥1.027,亲水性指数≥0,氨基酸的抗原表位可及性指数≥1,且区段内部或附近具有柔韧性结构,则这一区段为抗原表位的可能性较大。按照如上方法筛选表明,在E蛋白肽链的第35~41、80~89、148~159、245~251、314~320、392~402和475~482区段上,各种方案预测的结果基本一致,且在蛋白二级结构上含有较易形成抗原表位的转角和无规则卷曲结构。因此可以推测,E蛋白的B细胞抗原表位可能在以上区域内或附近。

3结论与讨论

B细胞识别蛋白抗原时,是以其表面的B细胞抗原受体(BCR)与蛋白抗原表位结合,此过程与抗原抗体的结合类似。作为B细胞的抗原表位,应位于或易于移动到蛋白抗原表面,有利于与B细胞抗原受体或抗体结合;同时还要有一定柔韧性,因为抗原与抗原受体或抗体的结合是一个相互嵌合的过程。因此,预测B细胞抗原表位时主要从蛋白质的二级结构、柔韧性、表面可及性和亲水性等几个方面入手。蛋白质二级结构与表位分布关系密切,在蛋白质结构中作为骨架起稳定作用的主要是α-螺旋和β-折叠,而决定蛋白质功能与抗原表位分布的则多是β-转角和无规则卷曲[14]。

由于螺旋区段和折叠区段的化学键能较高,主要维持蛋白的高级结构,且经常位于蛋白质内部,很难较好地与抗体嵌合,不易形成抗原表位;而转角区域和无规则卷曲区域的结构是比较松散的结构,易于发生扭曲、盘旋,并多位于蛋白质分子表面,有利于与抗体嵌合,成为抗原表位的可能性较大。蛋白质的柔韧性是指蛋白抗原构象不是刚性不变的,其多肽骨架有一定程度的活动性;亲水性分析结合二级结构预测已被广泛应用于抗原表位分析[15]。

本研究采用Chou-Fasman法和Garnier-Robson法预测鹅坦布苏病毒蛋白的二级结构,利用Karplus-Schulz法预测其柔性区域,利用Kyte-Doolittle方法预测E蛋白的亲水区和疏水区。结果显示,鹅坦布苏病毒E蛋白的二级结构较为复杂,且α-螺旋和β-折叠分布相对均匀,含有较多的转角和无规则卷曲等柔性区域,这些柔性区域的存在为抗原表位的确定提供了有力的证据。同时,与这些区域相对应的亲水性、柔韧性、抗原指数和表面可及性等参数也较高,因此预测这些区段应是潜在优势B细胞抗原表位所在区段。需要注意的是,一个蛋白质中某段氨基酸序列能否诱导体内产生抗体是多种复杂因素共同作用的结果。B细胞抗原表位,尤其是其构象表位,主要是通过三维立体结构来展现其抗原性,而生物信息学分析软件主要是对其二级结构进行预测,因此用于预测构象依赖型表位有一定的局限性。本试验的预测结果只能作为鉴定鹅坦布苏病毒E蛋白潜在表位的参考,预测结果正确与否还有待于科学研究证实。即便如此,通过生物信息学的方法对E蛋白进行预测,不仅可以了解坦布苏病毒E蛋白抗原的结构、功能、抗原抗体反应等有关免疫反应的诸多信息,而且对诊断试剂研发、药物制备和核酸疫苗设计等也具有指导意义。

nlc202309012119

参考文献:

[1]Yun T,Ye W C,Ni Z,et al. Identification and molecular characterization of a novel flavivirus isolated from Pekin ducklings in China[J]. Veterinary Microbiology,2012,157(3/4):311-319.

[2]Huang X M,Han K K,Zhao D M,et al. Identification and molecular characterization of a novel flavivirus isolated from geese in China[J]. Research in Veterinary Science,2013,94(3):774-780.

[3]Yan P X,Zhao Y S,Zhang X,et al. An infectious disease of ducks caused by a newly emerged Tembusu virus strain in mainland China[J]. Virology,2011,417(1):1-8.

[4]朱丽萍,颜世敢. 鸭坦布苏病毒研究进展[J]. 中国预防兽医学报,2012,34(1):79-82.

[5]Kolaskar A S,Kulkarni-Kale U. Prediction of three-dimensional structure and mapping of conformational epitopes of envelope glycoprotein of Japanese encephalitis virus[J]. Virology,1999,261(1):31-42.

[6]Seif S A,Morita K,Matsuo S,et al. Finer mapping of neutralizing epitope(s) on the C-terminal of Japanese encephalitis virus E-protein expressed in recombinant Escherichia coli system[J]. Vaccine,1995,13(16):1515-1521.

[7]Wu S C,Lin C W. Neutralizing peptide ligands selected from phage-displayed libraries mimic the conformational epitope on domain Ⅲ of the Japanese encephalitis virus envelope protein[J]. Virus Research,2001,76(1):59-69.

[8]劉丽娜,潘渠,朱军民,等. 2-型猪链球菌保护性抗原RfeA的B细胞表位预测[J]. 成都医学院学报,2011,6(2):133-135.

[9]Chou P Y,Fasman G D. Prediction of the secondary structure of protein comformation[M]. New York:Plenum Press,1990:549-586.

[10]Garnier J,Osguthorpe D J,Robson B. Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins[J]. Journal of Molecular Biology,1978,120(1):97-120.

[11]Kyte J,Doolittle R F. A simple method for displaying the hydropathic character of a protein[J]. Journal of Molecular Biology,1982,157(1):105-132.

[12]Emini E A,Hughes J V,Perlow D S,et al. Induction of hepatitis A virus-neutralizing antibody by a virus-specific synthetic peptide[J]. Journal of Virology,1985,55(3):836-839.

[13]Jameson B A,Wolf H. The antigenic index:a novel algorithm for predicting antigenic determinants[J]. Computer Applications in the Biosciences,1988,4(1):181-186.

[14]Doolittle R F. The roots of bioinformatics in protein evolution[J]. PLOS Computational Biology,2010,6(7):e1000875.

[15]Wang H W,Lin Y C,Pai T W,et al. Prediction of B-cell linear epitopes with a combination of support vector machine classification and amino acid propensity identification[J]. Journal of Biomedicine and Biotechnology,2011,Article ID:432830,

蛋白质结构类预测方法研究进展 篇4

1976年Levitt和Chothia引入了结构型的概念, 将蛋白质可以分为四大类:α型、β型、α/β型和α+β型。对于一个结构未知的蛋白质, 如果能够准确地预测其结构类, 不仅可以提高二级结构预测精度, 而且能够大大缩小三级结构预测中的构象搜索范围。目前蛋白质结构类的研究主要是通过各种实验方法, 包括X射线衍射晶体学、核磁共振技术等。然而传统实验方法获取结构的速度远远跟不上蛋白质序列测序速度, 这在一定程度上制约了人们对蛋白质结构和功能的理解。因此, 研究者逐渐开始转向理论计算的方法来预测蛋白质结构类, 通过对生物序列及结构数据的系统分析, 发现它们之间的联系。

目前, 利用生物信息学方法进行蛋白质结构类预测已成为了一个研究热点。大部分蛋白质结构类预测流程分为四个步骤:a.构建实验数据集;b.数据集中序列的特征信息提取;c.对提取的特征信息选择合适的预测算法;d.验证预测性能评估分类模型。而影响蛋白质结构类预测效果的关键因素是特征提取算法和预测算法设计, 因此, 本论文主要围绕这两大主题, 详细地介绍了国内外现有的蛋白质结构类预测中的特征提取算法与预测算法。

1 蛋白质特征信息的提取

蛋白质特征提取的基本思路是首先把蛋白质序列结构信息的特征提取出来, 并运用合适的数学方法描述特征信息。使用这种方法, 符号序列可以转换为数字序列, 进而特征向量能正确反映蛋白质结构和空间的关系, 反映蛋白质功能之间的关系。蛋白质信息的特征提取, 对于蛋白质结构类预测效果影响是至关重要的, 也是预测过程中关键的第一步。根据现有方法侧重点的不同, 可以归纳为3类:

1.1 蛋白质序列信息。

蛋白质序列是由一串氨基酸字符按不同的顺序排列而来的, 为了提取序列的特征就需要依靠氨基酸的一些属性等方法将其转换成数学方法可以处理的数值型序列。罗林波和陈绮提出基于氨基酸频率的熵密度, 通过计算将蛋白质序列转化包含熵密度20维向量, 在向量空间上进一步预测蛋白质结构类。为了提高蛋白质结构类预测的精度, 其它蛋白质序列相关的信息也被引入, 而且得到成功的运用。

1.2 蛋白质结构信息。

蛋白质高级结构也是由二级结构中简单元件组建构成, 可见, 蛋白质结构类型与其二级结构序列的组分及其空间排列息息相关。Petrova和Wu分析了蛋白质二级结构序列中的组分出现情况, 并应用于蛋白质结构类预测。Kurgan等人提出了SCPRED和MODAS两种预测方法, 他们是根据结构序列的长度, 通过标准化组分信息实现预测。2010年, 刘和贾通过计算结构序列中α-螺旋、β-折叠及β-转角的片段长度, 作为蛋白质二级结构信息。张等人则将二级结构序列转化为约化序列, 计算α-螺旋、β-折叠及β-转角之间的转换信息等, 取得较为理想的结果。

1.3 氨基酸物化信息。

众所周知, 氨基酸的种类由氨基酸的侧链决定, 种氨基酸侧链在形状、大小、负电性、水性以及酸碱性等方面都存在差异, 正是这种氨基酸的差异, 使各种不同组合的氨基酸序列形成各种不同的蛋白质结构, 并适应各类环境, 完成其特定的生理功能。蛋白质的生物学活性和理化性质主要决定其空间结构的完整, 因此仅仅知道蛋白质的氨基酸组成和它们的排列顺序并不能完全了解蛋白质的结构, 需要考虑氨基酸的性质。Kawashima等人建立氨基酸指数值, 采用自相关函数, 提取了蛋白质中氨基酸之间物化互作信息;Chou等人, 基于氨基酸物化性质, 首次提出了伪氨基酸组成这一概念, 对氨基酸组成方法进行改进, 应用到蛋白质各类研究中。

由于不同的特征从不同的角度刻画蛋白质序列。目前没有一种特征能够很好地刻画蛋白质的结构类特征, 单独利用某种特征难以在预测效果上取得大的突破, 将多种特征提取进行有效的组合是提高蛋白质结构类预测的一种有效方法。

2 蛋白质结构类预测算法

预测算法是蛋白质结构类预测过程中重要环节之一, 也是亟需挑战开发研究的。机器学习利用统计学理论观测数据, 寻找规律, 通过这些规律对未知的数据进行预测。在蛋白质分类的研究中, 许多机器学习算法也应用到蛋白质分类研究中, 例如决策树 (Decision Tree) , 概率神经网络, K-最邻近算法 (K-Nearest neighbors, KNN) , 神经网络, 自组织映射网络等。本文重点对支持向量机、神经网络方法、K-近邻法作详细介绍。

2.1 支持向量机。

支持向量机是Vapnik等人基于统计学理论提出的机器学习算法提出的。由于该算法具有简洁的数学形式, 直观的几何解释, 运算速度快, 分类准确等特点, 受到越来越多学者的关注。SVM与其他学习算法相比有较强的泛化能力, 在处理高维稀疏蛋白质数据上有着明显的优势, 其核方法更易于处理非向量的输入等优点, 所以该算法在蛋白质折叠识别, 蛋白质亚细胞定位的预测以及蛋白子结构类预测等各种模式识别研究领域中广泛的运用。

2.2 神经网络方法。

人工神经网络是对人类大脑特性的一种描述。它是用计算机程序来模拟的一个数学模型, 是人工智能研究的一种方法。人工神经网络是一个并行、分布处理结构, 它由处理单元互相连成。人工神经网络的信息处理是由网络单元的输入、输出特性、网络的拓扑结构、权值的大小和神经元的阀值所决定。1986年, Rumelhart和Mc Celland提出BP神经网络, 是一种按照误差逆传播算法训练的多层前馈网络。BP神经网络的优点是具有较好的推广及泛化能力, 而且学习准确率较高, 所以可以作为一个比较通用的函数模拟器。BP神经网络还具有很强的容错性及很快的处理速度等优点, 但由于其学习速率是固定不变的, 所以存在算法收敛性比较慢的缺点。

2.3 K-近邻法。

1968年, Cover和Hart提出最初的近邻法, 发展至今成为模式识别非参数法中最重要的方法之一。k-近邻方法是一种预测性的分类算法, 因受噪声数据影响较小、计算较为简单的优点, 故K-NN算法在生物信息学中己经被用来预测蛋白质二级结构、折叠和蛋白质亚细胞定位等。

随着研究的不断深入, 将多种预测方法进行融合研究, 也是蛋白质结构类预测研究的趋势。赵禹等人采用离散增量结合支持向量机方法预测蛋白质结构类多种算法的融合, 在提高预测的精度同时, 也提升了运行速度。

摘要:蛋白质结构类型是蛋白质高级结构中基本原件的空间分布, 是蛋白质高级结构与功能研究的基础, 该研究对蛋白质组学具有重要意义。通过传统实验方法研究蛋白质结构类需要耗费大量的人力、财力、物力, 也无法满足数据库中蛋白质序列爆炸性增长的现实需要。目前, 基于已积累数据, 探索理论计算方法预测蛋白质结构类是当前生物信息学的重要研究内容之一。本文对国内外亚细胞定位预测的研究现状进行了综述。

关键词:蛋白质结构类,特征信息提取,预测算法

参考文献

蛋白质结构预测 篇5

基于分段伪氨基酸组成成分特征提取方法预测蛋白质亚细胞定位

蛋白质的亚细胞定位与蛋白质的.功能密切相关,其定位预测有助于人们了解蛋白质功能.文章提出一种分段伪氨基酸组成成分特征提取方法,采用支持向量机算法对Chou构建的两个蛋白质亚细胞定位数据集(C2129,CS2423)进行了分类研究,并采用总分类精度Q3、内容平衡精度指数Q9等参数评估预测分类系统性能.预测结果表明,基于分段伪氨基酸组成成分特征提取方法的预测性能,优于基于完整蛋白质序列的伪氨基酸组成成分特征提取方法.例如,基于分段矩描述子伪氨基酸组成成分特征提取方法,数据集C2129的Q3和Q9分别为84.7%和60.8%,比基于完整蛋白质序列的矩描述子伪氨基酸组成成分特征提取方法分别提高1.8和2.2个百分点,且Q3比现有Xiao等人的方法提高了9.1个百分点.基于分段伪氨基酸组成成分特征提取方法构成的特征向量不仅包含残基之间的位置信息,而且还包含蛋白质子序列之问的耦合信息,另外蛋白质分段子序列可能和蛋白质的功能域有一定的联系,从而使这一方法能够有效地预测蛋白质亚细胞定位.

作 者:杨会芳 程咏梅 张绍武 潘泉 YANG Hui-fang CHENG Yong-mei ZhANG Shao-wu PAN Quan 作者单位:西北工业大学自动化学院,西安,710072刊 名:生物物理学报 ISTIC PKU英文刊名:ACTA BIOPHYSICA SINICA年,卷(期):200824(3)分类号:O61关键词:分段伪氨基酸组成成分 支持向量机 特征提取 亚细胞定位

蛋白质结构预测 篇6

【摘 要】目的:研究妊娠中晚期妇女血清C反应蛋白(C-reactive protein ,CRP)预测妊娠糖尿病(gestational diabetes mellitus,GDM)的价值。方法:用免疫散射比浊法检测484名早孕妇女CRP浓度,进行前瞻性研究,并追踪至孕中晚期,根据孕中晚期75g糖耐量结果分为GDM组,选取年龄、孕周相同的作为正常对照组,对两组间孕中晚期的CRP浓度、年龄、孕前身体质量指数(Body Mass Index,BMI)進行分析。结果:GDM的发生率为4.5%。作单因素分析时GDM组与非糖尿病组在年龄、孕前BMI、孕中晚期CRP有显著性差异,当校正年龄、孕前BMI时,GDM与妊娠中晚期CRP水平的高低有统计学意义,孕前BMI是决定母体CRP水平的主要因素。结论:孕中晚期血清CRP水平高低对GDM有预测价值。

【关键词】妊娠糖尿病 C-反应蛋白 预测

【中图分类号】R587.1 【文献标识码】A 【文章编号】1004-7484(2012)09-0057-02

蛋白质结构预测 篇7

蛋白质和多肽的构象与他们生物功能有着密切关系, 早在1973年Anfinsen的实验证明某些蛋白质的氨基酸序列在失性后可自发恢复其原有高级结构与活性[1], 那就意味蛋白质一级结构决定其高级结构。蛋白质的结构可以分为6个级别:一级结构, 二级结构, 超二级结构, 三级结构, 四级结构及分子缔和体。一级结构指蛋白质序列;二级结构为蛋白质中多肽主链的规则排布;超二级结构为二级结构单元间的组合方式;三级结构指蛋白质三维空间结构;四级结构则是蛋白质亚基间的相互作用。

自20世纪中期以来, 科学家一直致力于研究如何从蛋白质一级结构预测二级结构及高级结构问题, 陆续提出许多二级结构预测方法大体上分为:统计、模式识别和综合方法[2]。在众多方法中对预测结果较为理想的是基于神经网络的研究方法。但对前人基于BP神经网络预测都存在一些缺陷, 对于标准BP算法预测在系统最小点附近时, 由于梯度接近于零, 因此收敛很慢;对于共轭梯度算法使搜索方向的收敛很快, 但对于非简谐体系可能不收敛, 尤其对于起始模型远离平衡点的蛋白质系统, 共轭梯度法更容易陷入局部势阱。为此, 引入牛顿算法, 虽然该方法收敛速度快, 适合于小系统, 但对于大系统, 由于二级微商的引入使运算量大, 所以不是理想的预测方法。基于上述问题, 在此通过用迭代矩阵替换二级微商来改变牛顿算法的运算量, 提出改进的牛顿BP算法对蛋白质二级结构进行了预测。实验表明, 该方法取得了较好的效果。

1编码方式和评测数据库

1.1 编码方式

迄今为止, 对蛋白质二级结构预测精度最高的一种方法是人工神经网络方法, 而网络输入编码的方式对精度影响较大, 基于此本文比较了常用编码;如正交编码[3,4,5,6], 5位编码[7], 基于蛋白质理化性质编码[8], 基于氨基酸分子的疏水性和极性编码[9], Profile编码[10], 分矩阵编码[11], 基于密码子编码[12]等。比较各种编码方式的结果显示, 富含“生物进化信息”的Profile编码方式可以得到较高的预测精度[13], 由此选用的编码方式是Profile编码。

1.2 评测数据库

蛋白质二级结构的分类方法有很多种, 该数据来源选取采用DSSP数据库, 预测非同源蛋白二级结构。该研究利用DSSP分类法将PDB数据库中已知结构进行分类, 划分为α螺旋 (H) , β折叠 (S) , γ卷曲 (C) 三类。由于PDB数据库的蛋白质结构分为G, H, I, B, E, S, T和C等8类, 结合两种分类做下列划分:G, H, I属于α螺旋 (H) ;B, E属于β折叠 (S) ;S, T, C属于γ卷曲 (C) 。用一个常用的三维正交向量来表示上述分类:α螺旋 (H) 编码为100;β折叠 (S) 编码为010;γ卷曲 (C) 编码为001。

2BP网络构建

人工神经网络[14]是以人的大脑工作模式为基础, 研究自适应、非程序的信息处理, 是一种由多个神经元某种规则连接而成的层次网络结构, 其基本原理是这些神经元之间的“相互牵制”和“相互协作”;基本特征是连续时间非线性动力学, 网络的全局作用, 大规模并行分布处理及高度的鲁棒性和学习联想能力以及自组织, 自学习能力等。

2.1 生成BP神经网络

BP神经网络是人工神经网络中最具代表性和广泛应用的一种学习算法, 该算法是非循环多级网络的训练算法, 在这种网络模型中, 信号是逐层前传的, 不相邻间无联系。由于在BP网络中增加隐藏层的层数和隐藏层神经元个数不一定能够提高网络精度和表达能力, 所以在研究时考虑网络拓扑结构选用三层网络, 即输入层、隐藏层和输出层。在预测时, 网络的输入层接受蛋白质一级结构信息;输出层得到二级结构信息;隐藏层位于输入层和输出层之间的不可见层。一般, 对于特定氨基酸, 其前后氨基酸残基具有统计相关性, 会影响到该氨基酸的二级结构形式。在图1中, 输入是VRKKRWACD等9个氨基酸, 则输入层的总输入神经元个数为9×21 (其中21是每个氨基酸的编码位数) , 设隐藏层神经元个数为30。对于输出层是由3个神经元组成的, 对应三种蛋白质二级结构状态α螺旋 (H) ,

β折叠 (S) , γ卷曲 (C) 。对于输出层的三个结果, 通过比较其大小, 按照“胜者通吃”原则, 即max (H, S, C) =1, 其他值取0, 即得到输出层三个神经元编码:α螺旋 (H) 编码为100, β折叠 (S) 编码为010, γ卷曲 (C) 编码为001。

利用Matlab语言定义BP网络:

Net=newff (TEMP, [30, 3], {′tansing′, ′purelin′}, ′traingd′) ; %算法采用了学习率自适应调整策略

2.2 改进牛顿算法训练BP网络

对BP网络O=f (net) 的训练, 同样是对网络权值和阈值的修正要沿着表现函数下降最快方向。

式中:xk是当前的权值和阈值矩阵;gk是当前表现函数梯度, ak是学习率。对于标准BP算法在应用中存在以下缺点:系统在最小点附近时由于梯度接近于0, 因此收敛很慢。马栋萍提出共轭梯度法构造一套相互垂直的梯度和一套相互共轭的方向, 使搜索方向的收敛达到很快[15]。但该算法对于非简谐体系可能不收敛, 尤其对于起始模型远离平衡点的蛋白质系统, 共轭梯度法更容易陷入局部势阱, 所以本文提出一种改进牛顿算法的BP神经网络预测蛋白质二级结构。

一般牛顿算法不仅应用一级微商, 而且还应用二级微商Ak, 可从式 (2) 计算:

xk+1=xk-Ak-1gk (2)

其收敛速度很快, 但是在每一次迭代中, 牛顿算法都需要求出表现函数的二级微商即Hessian阵, 这就使得计算量很大。改进牛顿算法[16]的基本思想就是引进一组矩阵替代Hessian阵, 这样既不计算二级微商, 又能很好的逼近, 这样既保证了收敛速度快的优点, 又避免了牛顿算法的烦琐计算。

Ak+1sk=yk* (3)

迭代矩阵为:

Ak+1=Ak-AkskskΤAkskΤAksk+yk* (kk*) ΤskΤyk* (4)

式 (3) ~ (4) 中:sk=xk+1-xk, yk=gk+1-gk

利用Matlab语言实现改进牛顿算法:

Net=newff (TEMP, [30, 3], {′tansing′, ′purelin′}, ′trainoss′) ; %算法采用一步正割的BP训练

3结果与讨论

实验选用长度大于80个氨基酸的序列90个, 共16 585作为数据集合, 采用一步正割的BP训练法对其训练:

在此, 采用被广泛采用的评估公式来预测精度:

Q3= (Ρα+Ρβ+Ργ) /Ν

为了说明改进牛顿算法性能, 与BP神经网络[17]和Multi-Model[18]的预测结果进行比较。结果显示如表1所示。

从表1可以看出, 改进牛顿算法提高了预测精度, 优于其他方法。

4结语

虽然介绍的方法能提高预测精度, 但离期望的还有一段距离。需要进一步从蛋白质生物活性角度考虑, 改进编码, 改进训练算法。

蛋白质结构预测 篇8

关键词:二级结构预测,度量学习,凸优化,半定规划

0 引言

蛋白质是一切生命活动的主要承担者, 各种生理功能的完成大多是通过蛋白质来推动并实现的。蛋白质二级结构是多肽链的局部空间集结, 是指多肽链本身通过氢键沿一定方向盘绕、折叠而形成的周期性结构构象。常见的蛋白质二级结构有α-螺旋 (H) 、β-折叠 (E) 和无规卷曲 (C) 等, 而这些也是蛋白质三级结构的基本组成。当下给定一个由20个氨基酸A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和Y组成的蛋白质一级序列, 二级结构预测的目标就是把每个氨基酸映射到三类二级结构H、E或C中的一类, 以便获得对应的二级结构序列。特别地, 精准的二级结构预测不仅有助于蛋白质三维结构的确定, 更进一步地则是还可为蛋白质的功能注释及其互作预测提供有用且有效的各类信息[1]。

目前, 许多机器学习算法如支持向量机[2,3]、神经网络[4]、K近邻[5]和最大熵模型[6]等都已成功地应用到蛋白质二级结构预测。尤其是, 大部分算法都采用包含蛋白质进化信息的PSSM谱特征。事实上, PSSM谱是通过PSI-BLAST程序将查询蛋白质与NCBI nr数据库中蛋白质进行多序列比对而最终获得的。也就是说, PSSM谱并不是专门针对蛋白质二级结构预测而定制设计的。因此, 当采用近邻算法基于PSSM谱进行蛋白质二级结构预测时, 就很难手工指定一个合适的距离度量。着重此一问题的研究, 文献[7]提出了采用大间隔最近邻分类算法自适应地学习以配合二级结构预测的距离度量, 并且获得了较好的预测结果。然而, 基于其仅仅考虑的只是全局线性变换的单个学习, 因此并不能充分捕获数据间的相关性。

综上分析, 本文提出了一个基于大间隔多度量学习的蛋白质二级结构预测新算法。提出的算法首先基于PSSM谱构造特征向量, 然后调用大间隔多度量学习方法进行局部距离度量学习以便捕获二级结构训练数据间的相关性。实验结果表明, 与之前的蛋白质二级结构预测算法相比, 本文提出的方法能够获得较好的分类性能。

1 大间隔多度量学习算法

1.1 模型框架

给定一个带标签的训练数据集T, 可采用经典的聚类算法如K-means和高斯混合模型来进行聚类。对于聚类后获得的中心点, 则称其为对应类别的原型 (prototype) 。原型的类别标签就是其聚类样本所在的类别。大间隔多度量学习的目标就是同时学习多个局部线性变换, 使得在联接的特征变换空间中, 每个训练样本与其最近的原型均将具有同样的类别标签。显然, 如果获得的局部线性变换满足这个特性, 则在线性变换后的特征空间中训练集T采用最近邻分类规则即能获得最佳分类。

为了进行大间隔多度量学习, 首先需要为每类样本构造原型。出于易操作性和计算效率的考虑, 本文采用K-means聚类算法为每类样本构造原型。对于具有C个类别的训练数据集, 可首先根据类别将其划分为C个数据子集。然后分别采用基于欧氏距离的K-means聚类算法对每个子集进行聚类。聚类后的聚类中心点就是对应类别的原型。特别地, 每个原型均可用mjk唯一表示, 其中j∈{1, 2, …, C}是原型的标签类别, k∈{1, 2, …, nj}是原型编号, nj表示第j类的原型数目。此外, 进一步引入目标原型的概念。一个样本的目标原型就是其所在聚类的聚类中心点。在度量学习过程中, 样本的目标原型就是期望与其最近的原型。需要指出的是, 目标原型是通过聚类在度量学习之前确定的, 并且在度量学习过程中保持不变。为了利于阐述, 可称myiti为xi的目标原型, 标签ti即为训练样本xi的目标原型编号。

基于确定的原型, 大间隔多度量学习模型的目标就是学习C个线性变换矩阵Lj (j=1, …, C) , 使得对于每个样本点 (xi, yi) , 学习的线性变换需满足如下约束:

也就是说, 每个样本点与其目标原型的距离和该样本点与具有其它类别标签的原型的距离应保持至少一个单位间隔。维持一个单位间隔的目的是为了增加大间隔多度量学习模型的泛化能力。需要注意的是, 样本与原型的距离依赖于原型的类别标签。特别地, C个线性变换矩阵应该最小化如下损失函数:

其中, 函数[z]+=max (z, 0) 表示铰链损失。显然, 当式 (1) 中的不等式对任意样本xi都满足时, 所有铰链损失的值均将为0。此时, 目标损失函数即达到最小值。

尽管本文的模型框架与文献[8]采用的LMNN模型非常类似, 但却仍有以下三个方面存在明显的不同。具体阐述如下:

(1) 算法思想。LMNN模型进行度量学习的目标是使得每个样本与其目标邻居保持较小的距离, 而与其它类的样本则保持较远的距离。与其对应, 提出的算法模型进行度量学习的目标也是使得每个样本与目标原型 (也就是聚类中心点) 保持较小的距离, 而与其它类的聚类中心点保持较远的距离。只是需要注意的是, 目标原型是通过K均值聚类算法来获得聚类中心点, 而目标邻居是通过K近邻算法来实际获得具有相同标签的数据样本。

(2) 距离度量计算。LMNN模型需要采用欧氏距离度量计算两个样本xi和xj间的距离‖L (xi-xj) ‖22, 而提出的算法模型需要计算的则是每个样本xi与目标原型mjk的距离‖L (xi-xjk) ‖22。还需指出的是对于不同的目标原型, 本研究将采用不同的线性变换矩阵计算距离。

(3) 距离度量类型。LMNN模型为所有的训练样本学习一个全局的线性变换矩阵, 因此是单度量学习算法。而提出的算法模型却为每个聚类中心都学习一个变换矩阵, 因此是多度量学习算法。而通过采用多度量, 即可有效地处理复杂的数据关系。

1.2 凸优化

由于线性变换矩阵L1, …, LC表示的目标损失函数ε (L1, …, LC) 是非凸的, 这就决定了当采用梯度算法进行求解时, 参数易陷入局部极小值。为此, 可考虑引入C个半正定矩阵Mj=LjTLj (j=1, …, C) , 以便将其转化为凸优化函数。通过利用Mj替换Lj, 目标损失函数ε (L1, …, LC) 将可形式化为:

目标损失函数ε (M1, …, MC) 数是关于C个半正定矩阵M1, …, MC中元素的分段线性凸函数。在进行优化时, 需要保证每个参数矩阵是半正定的。通过引入非负松弛变量{ξijk}模拟铰链损失, 即可将多度量学习进一步形式化为如下的凸半定规划问题:

1.3 参数求解

为了最小化目标损失函数ε (M1, …, MC) , 可采用迭代的快速子梯度投影算法进行参数求解。对于第t次迭代, 令Mlt-1 (l=1, …, C) 为迭代开始时的矩阵参数, 则此时目标损失函数将可形式化为:

此外, 引入一个三元组集ψt, 其满足 (i, j, k) ∈ψt当且仅当索引 (i, j, k) 触发铰链损失 (即ξijk>0) 。给定三元组集, 损失函数ε (M1, …, MC) 的梯度矩阵Glt (l=1, …, C) 为:

显然, 梯度矩阵Glt (l=1, …, C) 仅仅依赖于三元组集ψt。因此, 两次连续迭代的梯度改变完全由ψt和ψt+1的差决定。如此, 第t+1次迭代的梯度Glt+1将可基于第t次迭代的梯度Gt进行快速计算, 数学表述为:

针对小的学习步长, 三元组集ψt在两次连续迭代中的改变也会很小。因此, 可通过极快的速度实现式 (7) 中的梯度计算。

基于获得的梯度Glt (l=1, …, C) , 为了最小化目标损失函数可根据学习步长α对参数矩阵Mlt-1 (l=1, …, C) 作如下更新:

由于更新后的参数很可能不是半正定的, 此时就需要将Mlt (l=1, …, C) 投影到半正定锥。这样, 即可采用特征值分解算法将对角化。令, 其中P是由特征向量组成的正交矩阵, Λ是由特征值组成的对角矩阵, 则到半正定锥的投影即为Mlt=PΛ+PT。其中, Λ+=max (Λ, 0) 。

尽管度量学习模型可以形式化为一个凸半定规划问题, 但在实际求解时确切采用的却是迭代的子梯度投影算法。并且在学习步长足够小的假定下, 文献[9]已经证实子梯度方法能够收敛到最优解。因此, 度量学习模型的参数求解将不会陷入局部极小值。此外, 根据收敛时参数矩阵的特征值分解Mlt=PΛ+PT, 也可方便地计算对应的线性变换矩阵Llt:Ltl=PT (Λ+) 1/2。

2 实验数据与评估准则

2.1 数据集

本文采用常见的CB513数据集进行测试。CB513数据集是由Cuff和Barton[10]按照SD记分度量选择的513条非同源蛋白质链实际组成的。事实上, CB513数据集仅包含蛋白质链的氨基酸序列和二级结构序列。为了针对数据集进行基于多序列的蛋白质二级结构预测实验, 就需要为每条蛋白质链分别构造一个PSSM谱矩阵, 具体步骤如下:

(1) 调用pfilt程序对NCBI nr数据库中的FASTA格式的蛋白质序列数据进行过滤, 以便删除低复杂性区域、跨膜区域和卷曲螺旋片段。

(2) 调用formatdb程序格式化过滤后的蛋白质序列数据, 以便生成用于PSI-BLAST多序列比对的索引和数据文件。

(3) 对于给定的蛋白质一级序列, 调用3次迭代的blastpgp程序使其与过滤后的NCBI nr数据库中的蛋白质一级序列进行PSI-BLAST多序列比对。

通过上述3个步骤, 当比对结束时每个蛋白质链都可以获得一个包含N×20的PSSM谱矩阵, 其中N表示给定蛋白质一级序列的长度, 20则为氨基酸的种类。特别地, PSSM谱矩阵中的数据元素均为整数, 其取值范围则从-9到13。基于已经获得的PSSM谱矩阵, 即可为蛋白质一级序列中的每个氨基酸残基构造特征向量。本文中将采用大小为11个氨基酸残基的滑动窗口顺序扫描给定的蛋白质序列, 通过将窗口中每个残基在矩阵中对应的行向量依次联接, 可以获得一个由220个元素构成的特征向量。滑动窗口中心残基的二级结构就是其对应的多序列比对特征的标签。特别地, 对于滑动窗口中没有对应残基的位置, 可用全零的元素表示其对应的行向量。这样, 蛋白质一级序列中的每个残基均将对应一个多序列比对特征向量。

2.2 蛋白质二级结构预测的评估准则

对于给定的蛋白质二级预测结构, 当前主要有三个准则用来评估预测结果的好坏, 下面逐一进行介绍。

准则一:三态单残基精度Q3。设C是预测序列中已获正确预测的残基数目, N是所有已预测的残基数目, 则Q3可表示为:

准则二:Matthews相关系数。Matthews相关系数具有如下的形式:

其中, pi表示构象i的氨基酸残基得到正确预测的个数, ni表示实际不处于构象i而且也未被预测为构象i的氨基酸残基个数, ui表示构象i的氨基酸残基获得错误预测的个数, oi则表示实际不处于构象i但却被预测为构象i的氨基酸残基个数。对于给定的待评估蛋白质二级结构预测结果, pi+ui和ni+oi恒为常数, 相关系数Ci的取值范围为-1到1。相关系数越大, 表明预测的结果越好。

准则三:片段重叠度量SOV。SOV是基于蛋白质二级结构片段的评估方法, 其基于预测二级结构序列与真实二级结构序列的重叠片段来评估预测的优劣, 具体定义可参考文献[11]。并且, SOV的定义要比Q3更严格, 因此当前蛋白质二级结构的评估即主要以SOV为标准。

3 实验结果与分析

为了评估提出算法的预测性能, 本文即在CB513数据集上进行了7重交叉验证实验。具体来讲, 就是将513条蛋白质链平均分成7个子集, 其中一个子集包括75条蛋白质链, 此外的都包括73条蛋白质链。轮流以其中的一个子集为测试集, 其余的6个为训练集, 预测结果是7次实验值的平均。特别地, 大间隔多度量学习算法在进行训练时, 首先利用K值为1的K-Means聚类算法为每类二级结构构造中心点。然后基于构造的中心点调用快速的迭代子梯度算法进行距离度量学习。当训练结束时, 对于每个测试样本, 大间隔多度量学习算法即会将多度量距离下与测试样本最近的中心点所在的类别作为其预测标签。而且, 为了避免预测结果中包含不正确的蛋白质二级结构内容 (HEH、EHE和CHC) , 研究还进一步执行了平滑操作, 其目的在于将HEH、EHE和CHC分别转化为HHH、EEE和CCC。

实验中, 拟将基于K近邻的蛋白质二级结构预测算法PREDICT[5]和Energy+Mahalanobis[7]与基于SVM的蛋白质二级结构预测算法YASSPP[2]、SVMfreq[12]和SVMpsi[13]在CB513数据集上进行了同样的7重交叉验证实验测试, 因此大间隔多度量学习算法可以与其结果进行直接比较。表1给出了CB513数据集上的比较结果, 其中“-”表示数据不能从文献中获得。从表中可以看出, 大间隔多度量学习算法的预测精度要优于SVMfreq、PREDICT和Energy+Mahalanobis。特别地, 提出的算法在CB513数据集上的Q3精度比Energy+Mahalanobis高0.96%, 而在更重要的SOV精度上则高出了1.85%。此外, 与基于SVM的二级结构预测算法SVMpsi和YASSPP相比, 大间隔多度量学习算法获得了较好的性能。尤其是, 大间隔多度量学习算法在SOV精度上比YASSPP高2.46%, 而在Q3预测精度上却比YASSPP低1.43%。因此可知, YASSPP和提出的算法包含互补的蛋白质二级结构信息。如果基于二者进行组合预测, 蛋白质二级结构的预测精度有望获得进一步提高。

考虑到大间隔多度量学习算法是基于近邻模型的, 因此在预测速度方面可进一步将其与文献[7]中的两个近邻预测算法Fuzzy KNN+Mahalanobis和Energy+Mahalanobis进行比较。出于比较上的公正、公平, 提出的算法都是基于标准的C++语言实现的。实验是在Win 7操作系统上进行的, 具体内存大小为2GB, CPU则为奔腾双核2.5GHz。随后, 表2即给出了三个算法分别在CB513的7重交叉验证测试集上的运行时间。从表2中可以看出, 大间隔多度量学习算法需要的预测时间最少。考虑到每个7重交叉验证测试集大约有73条蛋白质链, 这就证明了提出的算法可以在1/6秒内完成一条蛋白质链的预测。也就是说, 大间隔多度量学习算法可以对查询蛋白质链进行实时预测。

4 结束语

蛋白质结构预测 篇9

关键词:蛋白质结构预测,β-α-β模体,距离函数

引言

2个平行的β-strand被较长的loop连接, loop中间包含α螺旋 (α-helical) , 并且2个β折叠片之间存在氢键, 形成的结构模体β-loop-α-loop-β叫做β-α-β模体, 它是含有平行的β折叠 (sheet) 的蛋白质中的常见模体[1,5], 它频繁的出现在每一个具有β折叠片的蛋白质结构中, 在蛋白质结构中占有重要地位。因此, 对β-α-β模体的统计分析及预测是十分有意义的。

在本文中, 建立了β-α-β模体预测的数据库, 整理并使用了2个蛋白质数据库分别作为预测的训练集和独立检验集, 并且发展了距离函数来预测β-α-β模体, 得到了较好的预测结果。

1 材料和方法

1.1 材料

数据库选取了EVA的1423个相似性小于33%的蛋白质, 作为训练集[4], 同时选取了426个非冗余的蛋白质链组成, 序列相似性小于25%, 分辨率小于2.0Å, 作为独立检验集。对训练集, 获得二级结构为ECHCE模式的片断为3878个, 利用PROMOTIF[3]获得β-α-β模体分别为1622个, 与ECHCE模式相匹配的1459个片断确认为β-α-β, 其余2419个确认为非β-α-β;对独立检验集, 有257条蛋白质链中至少包含一个β-α-β模体, 这个数据库中共得到310个β-α-β模体和480个非β-α-β模体。

1.2 最佳序列片段长度的选取

蛋白质超二级结构是由二级结构单元所组成, 而超二级结构的构象类型与连接肽所连接的二级结构单元的种类、连接肽的长度以及连接肽残基的构象密切相关, 下面对序列对应的每一种二级结构进行详细的统计和分析, 过程如下:

对模体β-α-β模体和非β-α-β模体中的氨基酸长度进行统计, 见图1。在β-α-β模体中, 最少为8个氨基酸, 最多为60个氨基酸, 平均是28.5个氨基酸;在非β-α-β模体中, 最少为6个氨基酸, 最多为86个氨基酸, 平均为22.2个氨基酸。而对于全部ECHCE模式, 含有6~29个氨基酸的序列数占85.7%。

通常情况下超二级结构模体的预测是来自序列预测, 因此, 要选取适合的序列信息。由图1分析, 选取33个氨基酸是最佳序列模式长, 能够包含比较全面的序列信息。

固定序列长的选取:当序列长为奇数时, 序列的左侧比右侧多取一个氨基酸残基, 当序列长为偶数时, 序列两侧取相同的残基数。若序列不足33个氨基酸残基的, 两侧添加空位补齐。获得β-α-β模体1121个, 非β-α-β模体1890个。

上述选取方式, 参考了Kuhn[2]、Kumar[4]和Cruz[3]等的对β发夹固定模式片段截取方法。

1.3 方法

1.3.1 距离函数

距离函数可以衡量所研究的样品之间存在的相似性, 已被成功的应用于蛋白酶的预测研究。距离函数的计算公式如下:

其中P表示20维向量 (f1, f2, ….f20) , fi表示第i个氨基酸 (20个氨基酸) 出现的概率, P·Pi表示P和Pi的点积, ‖P‖和‖Pi‖分别是它们的模。可以证明0≤△ (P, Pi) ≤1。

序列片段P被预测为△ (P, Pβ-α-β) 和△ (P, Pnon-β-α-β) 中的最大值所属的类别, 可以由下面的公式表示:

1.3.2 精确评价指标

为了评价预测的正确率和预测方法的可信度, 精度 (S) 、Matthew相关系数 (Mcc) 、β-α-β模体的敏感性 (Sn) 、非β-α-β模体的敏感性 (Sn N) 、β-α-β模体的特异性 (Sp) 和非β-α-β模体的特异性 (Sp N) 如下计算:

p为真阳性样本序列数, r为真阴性样本序列数, u假阴性样本序列数, o为假阳性样本序列数。

2 结果与讨论

2.1 距离函数的预测结果

本文使用了距离函数对蛋白质超二级结构进行5交叉检验, 得到了的预测结果见表1。Mcc的值为0.31, 总精度为64.12%。由此可见, 距离函数是一种预测蛋白质结构的有效方法。

2.2 独立检验集中β-α-β模体预测结果

为了检验预测方法, 对独立检验集中的β-α-β和非β-α-β模体使用同样的方法进行预测。预测结果见表2。

由表2的预测结果可以看出, 独立检验集中的Mcc值0.41, 预测总精度71.14%, 结果是非常好的。

3 结论

本文使用的数据库包含的蛋白质结构类型有全β型、α+β型和α/β型, 选择的数据库远远大于Taylor和Thornton在1983年和1984年对β/α类的18个蛋白质中的62个β-α-β模体进行预测的数据库[5,6], 而且本文第一次运用了距离函数进行预测, 预测效果说明:应用的参数包含了模体的序列信息和结构信息;距离函数的引入, 更反映出了距离函数应用于蛋白质超二级结构是成功的;因此距离函数是一种预测蛋白质中复杂超二级结构的有效方法。

参考文献

[1]阎隆飞, 孙之荣.蛋白质分子结构[D].清华大学出版社1999, 43-59.

[2]Kuhn, M., Meiler, J.and Baker, D.Strand-loop-strand motifs:prediction of hairpins and diverging turns in proteins[J].Proteins:Struct Funct Bioinform, 2004 (54) :282-288.

[3]Cruz, X., Hutchinson, E.G., Hepherd, A.S.et al.Toward predicting protein topology:an approach to identifying B hairpins[J].Proc Natl Acad Sci, USA, 2002 (99) :11157-11162.

[4]Kumar, M., Bhasin, M.Bhair Pred:prediction ofβ-hairpins in a protein from multiple alignment information using ANN and SVM techniques[J].Nucl Acids Res, 2005 (33) :154-159

[5]Taylor, W.R., Thornton, J.M.Recognition of super-secondary structure in proteins[J].J Mol Biol.1984, 173 (4) :487-512

蛋白质结构预测 篇10

人酸性成纤维细胞生长因子(human acidic Fibroblast Growth Factor,haFGF)为成纤维细胞生长因子家族的成员之一,由154个氨基酸残基组成,分子量为16 kDa[1]。haFGF可以促进早期新生血管生成和创面肉芽组织生长[2,3],对难愈性慢性溃疡及严重创伤等的效果更明显[4,5]。但临床伤口常并发感染,影响haFGF的疗效,辅助添加抗生素存在弊端,并且致病性微生物对传统抗生素产生耐药性己成为影响公众健康的严重问题。

抗菌肽(antimicrobial peptides,AMP)可以抵抗外界病原体感染的多肽,具有广谱抗菌活性,不易耐药。LL-37是迄今为止在人体中发现的Cathelcidin家族中的唯一成员,研究发现LL-37在抗皮肤感染起着非常重要的作用[6,7]。LL-37以地毯式(carpet-like)杀菌模型广谱抗菌[8,9],可以中和内毒素[10],阻断或降低感染时LPS引发的病理损伤,并具有趋化炎性细胞至烧伤创面和调节创伤感染相关炎症因子释放的活性[11],在创伤的临床治疗中具有良好的应用价值。

为了更好地发挥两种多肽的生物功能,本文以重叠PCR技术扩增LL-37-haFGF基因,在此基础上,运用多种生物信息学工具对所设计的融合基因LL-37-haFGF进行分析预测。为LL-37-haFGF的制备及其生物功能研究奠定结构分析的理论基础。

1 材料与方法

1.1 材料

1.1.1 实验材料

大肠杆菌E.coli DH5α由作者实验室保存,质粒haFGF/pMD18-T由作者实验室保存。

1.1.2 试剂

限制性内切酶XhoⅠ和NdeⅠ 、T4 DNA Ligase、EX Taq DNA Polymerase 购自TaKaRa公司;柱式DNA胶回收试剂盒和质粒提取试剂盒购自Omega公司;其余常用试剂均为进口或国产分析纯。

1.2 方法

1.2.1 人抗菌肽LL-37-linker基因的扩增

根据Genebank公布的LL-37(GenBank accession nos.NM000800)和 haFGF(GenBank accession nos.NM004345)的cDNA序列,设计6条引物,引物P1、P2、P3、P4用于PCR合成扩增LL-37-Linker,P5、P6用于从haFGF/pMD18-T上扩增haFGF;P5引入疏水性多肽接头(Gly4Ser)3 的部分DNA序列,引物由Invintrogen公司合成(见表1)。

反应条件为:94 ℃预变性5 min;94 ℃ 30 sec,60 ℃ 30 sec,72 ℃ 40 sec,循环30次;72 ℃延伸10 min,2.0%凝脂糖凝胶检测特异扩增片段的大小。

注:划线部分为酶切位点,黑体部分为疏水性肽段(Gly4Ser)3 的Linker。

1.2.2 人酸性成纤维生长因子Linker-haFGF序列的扩增

以质粒haFGF/pMD18-T为模板,用引物P5、P6扩增Linker-haFGF特异片段。

反应条件为:94 ℃预变性5 min;94 ℃ 30 sec,55 ℃ 30 sec,72 ℃ 40 sec,循环30次;72 ℃延伸10 min。PCR产物放置于-20 ℃保存,1.5%凝脂糖凝胶检测特异扩增片段的大小。

1.2.3 重叠PCR扩增LL-37-haFGF融合基因

以LL-37-linker和linker-haFGF PCR产物为模板,以引物P1、P6扩增融合基因LL-37-haFGF。PCR反应体系及条件如下:

反应条件同1.2.2,1.5%凝脂糖凝胶检测特异扩增片段的大小。PCR产物连接PMD18-T,转化大肠杆菌DH5α,进行菌落PCR鉴定、酶切鉴定及测序分析。

1.2.4 融合基因LL-37-haFGF的生物信息学分析

利用ProtParam工具(http://www.expasy.ch/tools/protparam.html)分析融合基因推导的编码蛋白的氨基酸序列的基本物理化学参数。用NPS@(http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)预测融合蛋白二级结构和折叠类型。利用二级结构预测服务器Predict-Protein(http://www.predictprotein.org/)对LL-37-haFGF融合蛋白的跨膜区进行预测。用NCBI服务器中的CDD程序(http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi)搜索融合基因LL-37-haFGF DNA序列推导的氨基酸序列中可能有的蛋白功能结构域。利用http://expasy.org网站提供的分析工具查看融合基因各氨基酸的疏水性变化。利用Modeller免费软件程序进行高级结构预测。

2 结果与分析

2.1 LL-37-linker和linker-haFGF基因序列的克隆

利用PCR 为基础的基因合成技术,以引物P1、P2、P3和P4扩增合成LL-37-linker片段(见图1);以质粒haFGF/pMD18-T为模板,PCR扩增liker-haFGF。产物经1.0%琼脂糖凝胶电泳检测,大小与理论结果相符(分别为156bp和471bp,见图2)。

(a)PCR amplification of LL-37-liner;Lane M:DNA molecular marker;Lane 1:PCR product of LL-37-linker gene.(b)PCR amplification of linker-haFGF;Lane M:DNA molecular marker;Lane 1:PCR product of liner-haFGF gene.

2.2 Gene Soeing技术构建重组融合基因LL-37-haFGF

以LL-37-linker和linker-haFGF PCR产物为模板,用引物P1、P6,通过重叠延伸PCR反应将LL-37和haFGF进行拼接,扩增获得约600bp的片段,即为合成的全长融合蛋白基因,大小与理论618bp相符(见图3a)。经PCR鉴定和双酶切鉴定后见(图3b),阳性菌落送交测序,无突变,表明重组质粒LL-37-haFGF/PMD18-T构建成功。

(a)Construction of fusion gene LL-37-haFGF;Lane 1:Target amplification of LL-37-haFGF.(b)Screening of recombinant plasmids containing fusion gene;Lane M:DNA molecular weight marker.Lane 1:Recombinant plasmids digested with NdeⅠ/XhoⅠ;Lane 2:PCR products of recombinant plasmids.

2.3 融合基因LL-37-haFGF生物信息学分析

2.3.1 物理化学性质分析

分析结果表明,215个氨基酸,分子量为23 945.9Da,理论等电点为8.86。此肽为阳离子多肽,其中,碱性氨基酸残基和疏水性氨基酸的比例分别为18.6%、33.9%,总含量超过50%,含量最丰富的氨基酸包括Gly(13.0%)、Leu(10.7%)、Lys(8.4%)均为碱性氨基酸和疏水性氨基酸。大肠杆菌表达的预测半衰期>10 h,利于基因工程表达。脂溶性指数70.28,不稳定指数为38.69,表明稳定性好。GRAVY指数-0.693,表明此肽具有疏水性,有利于细菌膜中稳定存在。

2.3.2 二级结构预测分析

NPS@同源比对发现LL-37-haFGF二级结构主要由α-螺旋、β-转角和无规则卷曲组成,α-螺旋是N端LL-37部分最大量的结构元件,而无规则卷曲和延伸链则构成了C端haFGF最大量的结构元件,与原本设计一致(见图4)。LL-37-haFGF融合蛋白无跨膜区。expasy中的TMHMM 工具预测结果如下(见图5)。

2.3.3 保守结构域分析结果

利用NCBI的CDD程序对融合基因推导的氨基酸的保守结构域进行搜索,结果显示其具有典型成纤维生长因子家族的保守结构域和CAP18超家族结合内毒素LPS结构域(见图6)。

2.3.4 三级结构预测

利用Modeller程序预测LL-37-haFGF编码氨基酸的三级结构(见图7),结果表明,LL-37-haFGF两段功能结构域间不形成空间位阻,有利于双功能活性保持。

3 讨论

基因融合技术是设计获取多功能新蛋白质的常用策略之一,对蛋白质进行改造设计,可以得到更能满足人类需要的功能蛋白质。目前,国内外的研究者已进行了有益的尝试:本实验室制备的家蝇抗菌肽(Mdc)与人溶菌酶(Hly)的融合蛋白Mdc-hly,相比亲本多肽Mdc和hly,其抗菌活性增加,体外的抗菌谱更广[12]。凋亡素KLA本身不能穿透细胞膜,Kim等将其与翻译控制肿瘤蛋白TCTP-PTD氨基端的转导结构域相融合,得到的TCTP-KLA同时具备KLA抗肿和TCTP穿透细胞膜的活性[13]。这些成功的案例为本研究提供了理论和实践依据。本研究采用Gene Soeing(重叠延伸PCR)技术构建的融合基因LL-37-haFGF,尚无报道。

当LL-37和haFGF亲本蛋白结构域形成正确的空间构象时,融合蛋白就可以保持各亲本蛋白的活性。如果将蛋白功能域直接连接构建成融合蛋白,那么结构域之间往往存在天然的空间位阻,互相干扰,遮蔽了活性中心或活性靶点,使其功能活性大大降低。本研究采用的15 肽序列(Gly4Ser)3,具有良好的折叠性和柔顺性,有助于LL-37-haFGF融合多肽形成有活性的空间结构,获得双重活性。

重组DNA技术通常涉及以反转录PCR扩增和cDNA克隆,但模板DNA有时不容易获得。根据LL-37-linker基因,我们选择了以4个PCR相关引物,利用PCR为基础的体外DNA片段合成技术来扩增LL-37-linker基因片段。与反转录PCR扩增和cDNA克隆技术相比,该方法更快速、更简单[14]。

上一篇:涉农贪污贿赂下一篇:相继故障