生物信息学一级数据库

2024-06-17

生物信息学一级数据库(通用8篇)

篇1:生物信息学一级数据库

Web of Science收录生物信息学数据库研究文献的分析

利用文献计量学方法,统计分析了1995~ 年Web of Science收录生物信息学数据库(bioinformatics databases)研究文献,探讨了生物信息学数据库文献研究的年代分布、语种、期刊分布、作者、文献类型、主题分布以及发文量前10名的国家和机构,以期了解世界各国在这一研究领域的`进展情况.

作 者:杨长平吴登俊 Yang Changping Wu Dengjun  作者单位:杨长平,Yang Changping(四川农业大学图书馆,雅安,625014;四川农业大学动科院,雅安,625014)

吴登俊,Wu Dengjun(四川农业大学动科院,雅安,625014)

刊 名:农业图书情报学刊 英文刊名:JOURNAL OF LIBRARY AND INFORMATION SCIENCES IN AGRICULTURE 年,卷(期): 21(1) 分类号:G350 关键词:生物信息学数据库   文献分析   Web of Science  

篇2:生物信息学一级数据库

1.通过生物信息学的方法筛选出候补集合。(中间包括滤除各种噪声或者误差。)

2.定性分析:Reverse Transcription PCR(RT)。看看有没有。

3.定量分析:Quantification PCR。有的话多不多。

4.定全长。RACE。

5.生物功能研究。

可以采用敲除和过表达的方式,并使用chip-seq免疫共沉淀技术,找出该基因和已知蛋白的关系。如果找到已知的蛋白,可以继续研究和该蛋白相互作用的蛋白以及target等的研究。如果效果比较好,可以使用细胞模型,如果细胞模型比较好,可以继续上动物模型,如果动物模型好,可以继续上临床。这样一篇新英格兰级别的文章就诞生了。呵呵。

篇3:生物信息学中数据库的应用及整合

关键词:生物信息学,数据库应用,整合

0 引言

生物信息学(Bioinformatics)是研究生物基因组中信息的获取、加工、储存、分配、分析和解释的一门新兴交叉学科,其具体研究内容包括蛋白质结构、序列比对、序列分析、药物设计、功能基因组、基因表达数据分析等方面。所有这些研究中的一个核心问题就是数据库的开发,即如何收集、存储、管理和提供生物信息。从生物意义上生物数据库可分为核酸和蛋白质、基因组数据库等一级结构数据库、三维空间结构数据库和文献资料为基础构成的二级数据库。从数据存在形式上,生物数据库可分为面向对象数据库、关系数据库等;而从数据库的使用方面,生物数据库还可分为专门数据库和通用数据库。专门数据库是包含特定主题的生物数据库,一般由临床或者实验获得;通用数据库则包括生物体或者组织的基因序列信息、DNA序列信息和蛋白质序列信息。

1 生物信息学中数据库的应用

1.1 基因组数据库

基因组数据库源自基因组作图,而人类基因组数据库GDB(Genome Database)则是人类基因组计划处理和保存的疾病数据以及基因组图谱数据。该基因组数据库以编制人类基因组百科全书为目的,构建了基因组图谱,开发了描述基因组内容的方式,另外,还包括表型的描述、序列变异以及其它对功能。GDB保存了大量人类基因图谱,用户可通过基因符号、Gen Bank注册号或关键词进行搜索,并以图形方式观看基因组图谱。目前,已建成了多种基因组数据库,诸如,Ensembl Database包含蠕虫、昆虫、脊椎动物等多种类基因序列注释信息,OMIM Database收录了大量的人类致病相关基因以及正常基因数据,最大的c DNA数据库TIGR Database则包含非常多的测定中的基因组数据。

1.2 核酸序列数据库

核酸数据库是以了解生物体结构、功能、发育和进化为目的而进行构架和完成实施的。目前,国际上发挥权威作用的核酸序列数据库有三个,分别是位于英国剑桥的欧洲分子生物学实验室(European Moleeular Biology Laboratory,EMBL)、美国国家生物技术信息中心(National Center for Bioteehnology Information,NCBI)的Gen Bank[1]、日本遗传研究所的DDBJ数据库(DNA Databank of Japan,DDBJ)。E-MBL现由欧洲生物信息学研究所(EBI)负责运行,而该数据库则由Oracle数据库系统管理维护,查询检索即可通过因特网上的序列提取系统(SRS)服务完成,其中的数据可通过WEBIN和Sequin等软件来提交[2]。Gen Bank是一个涵盖了来自十多万种生物的核苷酸序列的数据库。每条记录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。另外,上面提到的三个大型数据库已经组成了合作联合体,互相交换信息,而且对DNA序列记录提供了统一标准,共同享有信息并向世界开放,故这三个数据库又被称为公共序列数据库。此外,还需提及的是Entrez。Entrez是综合生物信息检索数据库系统,用户可以很方便地检索Genbank的核酸数据,另外,还能够检索其它数据库的基因组图谱数据、蛋白质序列数据、种群序列数据集、Medline的文献数据、蛋白质三维结构数据等一系列数据。

1.3 蛋白质序列数据库

国际蛋白质序列数据库(PSD)是经过注释的、非冗余且品种齐全的蛋白质序列数据库,由慕尼黑蛋白质序列信息中心(MPIS)、蛋白质信息资源(PIR)以及日本国际蛋白质序列数据库(JIPDI)共同维护。Swiss Prot蛋白质数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。慕尼黑蛋白质序列信息中心MIPS提供蛋白质功能注释信息,信息中包括了多物种蛋白质相互作用的数据DIP。DIP数据库中的信息则是由蛋白质相互作用实验而确定的,通过结合多种数据来源创建了一个同类的、同一的蛋白质相互作用集合,而后利用PPI网络的相关知识及理论,从最可信的DIP数据的核心子集中进行了提取处理,因而最终形成了数据库中的有效信息。

1.4 结构数据库

国际上最为详尽的蛋白质结构数据库(PDB)是通过核磁共振、电子衍射、X射线单晶衍射等实验方法确定的多糖、蛋白质、病毒、核酸等三维结构数据库,允许用户利用布尔逻辑组合和各种方式进行检索,检索的字段包括参考文献、PDB代码、功能类别、作者、名称、分子式、空间群、来源、分辨率、生物来源、入库时间等不同子项。用户即可以得到生物大分子的多种三维图形、坐标、VAML、注释等,而且还可以通过一系列指针连接到与PDB相关的多个数据库。结构分类数据库SCOP(Structural Classification of Proteins)包含了Protein Data Bank中所有已知结构的蛋白质,并提供了对这些蛋白质的相似性分析和进化上的同源性分析。SCOP对蛋白质结构域的划分和归类是通过该领域专家的人工比较,再辅之以一些视觉检验和结构比较方面的自动计算方法工具共同实现的。此外,CATH数据库能够在四个层次上对蛋白质和蛋白质结构域进行分类:Class(C)、Architecture(A)、Topologym(T)以及Homologous superfamily(H)。

1.5 其他数据库资源

公共的通用型综合代谢数据库主要是以统一数据格式记录了已知有关代谢的全部信息,因而可以作为有关非物种特异研究的代谢数据资源。比较常用的通用型综合数据库还有日本京都基因和基因组百科全书KEGG,代谢通路百科全书Meta Cyc、通路/基因组数据库Bio Cye以及整合了KEGG和Bio Cye的数据库系统Bio Silico等。

生物信息学在基因组学中发挥着重大的作用,而另一项崭新的技术—基因芯片也已经不可小觑,业已成为大规模探索和提取生物分子信息的强有力手段。较为有名的基因芯片数据库有美国生物技术信息国家中心(NCBI)的GEO(gene expression omnibus),Harvard的Express DB,欧洲生物信息研究所(EBI)的Array Express,MIT的Chip DB。此外,DBCat是根据生物的应用领域进行了分类的目录数据库,可以免费下载或在网络上检索查询。而另一个重要的数据库Pub Med则是由NCBI维护的文献引用数据库,用户可以方便地利用Entrez系统对Pub Med进行查询检索。

1.6 二级数据库

一级数据库的数据都直接来源于实验获得的原始数据,只是经过简单的归类、整理和注释。二次数据库也称专门数据库、专业数据库、专用数据库,这类数据库是研究人员根据不同的需要,在一级数据库、实验数据以及理论分析的基础上针对特定目标信息进行分析、整理、归纳、注释或者提取而得到的。这就如同一个连接点将世界各地分散的数据、服务资源有机地联结起来,形成信息流动的中间站,是数据库开发的有效途径。总地来说,一级数据库的数据规模大,更新速度快,用户面广,而二级数据库规模则相对较小,更新速度也不如一级数据库那样快。许多的二级数据库是基于Web开发,使用超文本语言HTML,并带有Java程序编写的图形界面;有的还内含有搜索程序,具有友好的图形界面和方便的访问方式,也可以不需要大型商业数据库软件的支持或支撑。

2 采用XML技术实现异构生物数据库的整合

数据库中的数据大多来自于全世界科学家的科研贡献,生物信息学数据库覆盖面广,且发展呈爆炸性增长,同时分布位置不集中、形式也不统一,加之当前的各个生物数据库的建立时间和创建目的也不尽相同,致使采用的描述格式达到了十几种之多,这些格式虽然都是标准ASCII码文件,但在显示各种信息或序列本身的某些字符时亦会有所不同,因而非常不利于数据的查询和信息的共享。

生物数据整合可为研究人员节省许多数据转换之间的工作,有利于数据共享,但目前生物数据库的整合面临着数据的异构和数据的无结构化两个主要的难题。生物数据库中,对生物数据的描述主要由原始序列数据和描述这些数据的生物信息的注释两部分组成,注释包括对序列数据来源、功能以及特性等进行描述。数据的异构包括语法的异构和语义的异构,而数据的无结构化就是指生物数据通常以文档形式描述。对于数据异构而言,数据描述格式的不同则将导致语法的异构,而数据描述标识和描述模式的不同会带来语义的异构。异构生物数据库的整合主要就是指屏蔽掉描述模式上的差异和冲突。

XML可以将毫无结构的文档数据用半结构化的形式描述,各系统都采用XML描述语言以解决数据的语法异构问题。在深入研究互连网上的各种公用生物信息数据库的有关性能之后,提出从生物学意义角度选择生物信息数据库,整合其数据及服务资源,利用XML技术将异构的生物信息数据进行格式转换,并将这些异构数据库的生物信息数据及服务资源整合到本地SQL Server 2008数据库中,为用户提供统一的使用平台[3],设计的系统体系结构如图1所示。

从图1中可以看到,该系统构建了一个一体化的、综合的集成环境,采用可视化的界面,将国际互连网络上分布、异构且格式不统一的生物信息数据库通过数据下载中心、数据库管理实现了数据资源的共享与整合,为生物科学的研究构建了一个新的数据信息平台。用户可以方便地通过用户端使用数据库的检索引擎对多种异构数据库的数据开展研究,如进行高效、准确的检索以及提供深层、有效的数据分析。

上述系统主要由下载中心数据库、数据库管理、用户端组成。

下载中心数据库模块给出数据源地址和具体的下载方式,引导数据库管理员将内容下载到本地指定的文件夹中;数据库管理模块采用可视化的界面,方便系统维护,主要功能是按照生物公共数据模型建立异构数据库之间的语义链接,在概念和联系层次上有效地解决了生物异构数据库的整合问题。建立的交换中心数据库进行XML格式转换并将其加载到本地SQL Server生物信息数据库中,管理员可以将从其他渠道或由实验中得到的核酸序列、蛋白质序列等数据通过界面直接输入到相应的数据库中,也可以通过界面修改、删除数据库中的数据以及备份数据。生物信息网络中的数据库服务广泛采用客户—服务器结构,SQL Server2008全文索引为在字符数据中进行复杂的词搜索提供了有效支持,通过在内部将搜索的条件发送给Microsoft搜索服务,Microsoft搜索服务即可查找得到全部符合检索条件的键,并将搜索结果返回给SQL Server。

用户端通过友好的图形界面接口使得研究人员可以非常方便地根据用户需要进行序列转换、核酸序列比对、蛋白质同源性分析和统计分析,也可以使用数据库的检索引擎对数据库进行检索和数据分析。另外,还可以输入多重关键词检索系统数据库中的核酸和蛋白质序列记录,对查询进行动态规划算法计算,实现智能化的多重、复合的数据检索。DOM包装器把来自SQL Server生物信息数据库的查询结果数据按照用户要求的格式进行合成处理,再将最终结果返回给用户。

3 结束语

生物信息数据库的研究结果不仅具有重要的理论价值,也可直接应用到工农业生产和医疗实践中。本文对基因组数据库、核酸序列数据库、蛋白质序列数据库、结构数据库、其他数据库资源、二级数据库的具体应用进行了探讨。目前各个生物数据库建立的时间和目的不尽相同,描述格式也各有不同,故而不利于数据的查询和共享。本文设计了一个基于XML的异构生物信息数据库整合系统,利用XML技术将异构的生物信息数据按照生物公共数据模型进行格式转换,并将多个分布且格式不统一的数据库整合到本地SQL Server 2008数据库中,构建形成了一个综合的、一体化的集成环境,为研究使用者进行相关的数据查询、数据处理和数据分析提供了一个智能的、实用化的服务平台,实现了异构生物数据库的共享与整合。

参考文献

[1]BENSON D A,KARSCH-MIZRACHI I,LIPMAN D J,et a1.GenBank:Update[J].Nucl.Acids Res,2004,32:23-26.

[2]EuroPean Bioinformaties Institute.Sequence Similarity&Analysis[EB/OL].http://www.ebi.ac.uk/Tools/similarity and analysis.html,2012.

篇4:生物信息学一级数据库

关键词:MySQL 数据库 生物信息学

中图分类号:G64 文献标识码:A 文章编号:1674-098X(2016)02(b)-0141-02

随着计算机技术和生物技术的快速发展,MySQL数据库课程不仅是计算机类专业、信息管理专业的重要专业课程,也是生物信息学专业的必修课程。MySQL数据库作为应用型课程,其课程体系注重培养学生利用数据库技术解决实际问题的能力,然而由于专业方向、教学手段、考核方式等方面的限制,容易使学生学习目标不明确、缺乏学习兴趣,导致学习效果较差。如何改变生物信息学专业的MySQL数据库教学现状,是值得深入思考的问题,该文从教学实践出发,探讨MySQL数据库课程在生物信息学专业中的重要性和教学方法。

1 MySQL数据库特点

MySQL由瑞典MySQL AB公司开发的一款开放源码的中小型关系数据库管理系统,是当前网站开发中尤其是PHP开发中使用最为广泛的数据库。MySQL支持多线程充分利用CPU资源,提供TCP/IP、ODBC和JDBC等多种数据库连接途径,支持Linux、Solaris和Windows等多种操作系统,使用系统核心提供的多线程机制提供完全的多线程运行模式,提供了面向C、C++、Java、Perl、PHP和Python等编程语言接口,优化SQL查询算法,可有效地提高查询速度。它具有操作简单、体积小、速度快等优点,语法简单,容易被学生理解和接受,在编写网站应用程序时,几乎离不开数据库,所以,在教学中选取MySQL作为教学用数据库管理系统。

2 MySQL数据库课程教学方法研究

MySQL数据库具有很多特点,是网站应用程序不可缺少的重要部分。对于生物信息学专业的学生而言,使用很多数据库,如,NCBI、UCSC等进行生物数据检索,而获得数据后,如何进行数据存储、数据处理和分析成为一个重点难点问题。学习MySQL数据库课程,能使学生快速地掌握使用方法,提高处理数据效率。为保证良好的MySQL数据库教学效果,从以下几方面开展教学方法研究和实践。

2.1 理论与实践紧密结合,调动学生学习兴趣

根据MySQL数据库理论性和应用性强的特点,为使学生全面掌握数据库基本知识和技能,提出理论与实践紧密结合的教学方法,重视课堂理论知识的传授,紧密结合实践训练。例如:理论学习关系数据库模型时,引入实例,指导学生从GenBank数据库获取核酸和蛋白质序列,调动学生主动思考,如何存储为关系模型数据,加深学生对关系模型的理解和应用,并为同学分配任务,进行核酸和蛋白质序列的查询、修改关系操作,通过这种具有专业特色的理论学习与实践训练相结合的教学方法,使学生掌握了MySQL数据库理论知识的同时,也激励同学主动开展实践训练,能够使枯燥的理论知识变得生动有趣,使学生认识到MySQL数据库课程的重要性,进一步促进生物信息学专业课程的学习。

2.2 项目与任务驱动结合,培养学生动手能力

针对MySQL数据库课程的特点,开展项目与任务紧密结合的教学方法。总体上将课程划分为若干阶段的教学过程,并将教学过程分解在一个项目案例MySQL数据库系统中。例如:构建人类疾病相关基因数据库系统,将该项目划分按照数据库设计周期划分为以下6个阶段:需求分析阶段、概念结构设计阶段、逻辑结构高设计阶段、物理结构设计阶段,数据库实施阶段和数据库运行与维护阶段,分配子项目和子任务,包括人类疾病相关基因数据的获得与处理、转化为关系模型结构数据、数据模式分解、MySQL数据库构建、关系表构建、数据类型设置、数据导入、创建索引、视图、触发器以及存储过程等,充分调动学生学习的主动性,发挥主观能动性,用项目和任务引导学生学习知识点,即把知识点的讲授贯穿在实际应用项目的开发过程之中,指导学生掌握实际的MySQL数据库的分析、设计与开发过程,培养学生动手研发能力。

2.3 考核与教学反思结合,优化教学内容

目前,MySQL的数据库课程理论与实践考核存在考核过程效率低、考核内容覆盖面小、考核方法少等问题使教师难以全面掌握学生的学习效果,所以,在考核过程中督促学生全面掌握数据库相关知识,提出了可靠的理论与实践考核方法,即制订合理的考核内容计划,构建全面的数据库、试题库、理论试题库和实践试题库,全面覆盖表与数据库的创建、表结构的修改及索引的创建、数据操作、查询及视图、触发器与存储过程的创建、用户与权限管理等,结合生物信息学专业知识进行理论和实践考试,保证理论考试和实践考试能够全面真实地反映学生的掌握水平。同时,进行教学反思,即时纠正教学过程中还存在的问题,对于课堂上学生提出的一些独特见解给予充分肯定,推广的好方法、好思路、好见解,完善教学过程,拓宽教师的教学思路,提高教学水平。

3 结语

MySQL数据库课程是生物信息学专业的重要专业基础课,具有较强的应用性。该文根据MySQL数据库特点,结合生物信息学专业特色,提出了理论与实践结合、项目与任务结合、考核与教学反思结合的教学方法,不仅调动学生的学习主动性,而且在实践过程中使学生充分认识到MySQL数据库课程在生物信息学数据存储、数据处理等方面的重要作用,通过数据库试题库进行理论与实践考核,督促学生全面掌握数据库相关知识,通过项目与任务结合培养了学生的实践能力,很好地完成了教学任务,但具体教学过程中可能还会存在一些问题,这需要教师根据课程环境进行即时调整不断地完善,使MySQL数据库课程在生物信息学专业中发挥更重要的作用。

参考文献

[1]钟志宏.MySQL数据库实践考核的方法研究[J].黔南民族师范学院学报,2012(6):83-84.

[2]赵彦.探析高职院校MySQL数据库课程教学[J].信息教育,2012(9):127-128.

[3]党小争.以工作过程为导向的项目驱动法在MySQL数据库课程教学中的应用[J].教育教学论坛,2014,4(18):82-83.

篇5:生物信息学

1,数学基础要好点。线代,高数,统计等。

2,计算机知识。windows ,linux, unix系统等,各种常用生物软件的使用。可以自己找来一个个试。

3,matlab 里面有的关于生物方面的工具包也很多的。

4,生物知识,不用说的。

其他: 如果要深入的话,最好会编程。什么java,perl,等。我是刚开始学。大家多指教。

导师推荐了好几本书:

《生物信息学概论》 “Introduction to bioinformatics”(英)T K Attwood , D J Parry-Smith 著罗静初 等译北京大学出版社 2002年4月第一版本书从生物信息学的研究对象、意义出发,介绍生物信息学研究的基本方法和常用工具。主要介绍的是核酸和蛋白质序列的计算机分析方法,探讨利用现有的计算机程序,从现有的数据库中能够获取什么、不能够获取什么。全书共分十章:1.概论,2.信息网络,3.蛋白质信息资源,4.基因组信息资源,5.DNA序列分析,6.双序列比对,7.多序列比对,8.二次数据库搜索,9.数据库搜索实例,10.序列分析软件包。每章末尾均提供了进一步阅读指南和有关的网址。这本书的一大特色在于丰富的例子和图表,使读者可以很直观的了解和掌握书中的内容。此外,书的末尾还附有与生物信息学相关的词汇表。总的说来,这本书实用性强,可以作为高等院校生物信息学教材,也可以作为生命科学和生物技术各领域分子生物学研究和开发工作者的生物信息学参考书。

《生物信息学手册》郝柏林 张淑誉 编著上海科学技术出版社 2000年10月第一版一本手册式的生物信息学书籍。除了介绍了生物信息学,还包括了计算机及计算机网络(这一部分提供了一些网址)和分子生物学的知识。更为重要的是,该书的主要部分?quot;生物信息数据库“和”服务、软件和算法“部分,提供了大量的网址。几乎是每一个条目下面都有不少网址。这本书将网络上的生物信息学资源进行了索引式的介绍,并作了必要的说明。书中列举了近千条网址和引文,基本涵盖了生物学研究的各个方面,堪称生物信息的汪洋大海中的导航图。对生物信息学的服务、软件和算法,本书也作了较全面的描述。本书可供广大生命科学工作者以及由物理学、数学和计算机学转入生命科学领域的研究教学人员参阅(上面可以查到很多网址)。

《生物信息学》赵国屏 等 编著科学出版社 2002年4月 第一版本书是”863“生物高科技丛书之一。它比较全面地介绍了生物信息学的若干个主要分支,并特别介绍了与人类基因组研究

相关的生物信息学的一些较新成果;着重介绍了数据库和数据库的查询、序列的同源比较及其在生物进化研究中的应用;以生物芯片中的生物信息学问题为例,介绍与基因表达相关的生物信息学问题;还介绍了蛋白质结构研究中的生物信息学问题,以及与分子设计和药物设计相关的生物信息学技术。本书可供生物信息学专业和生命科学相关专业的本科生、研究生和教学科研人员阅读学习,也可供相关专业的科技和应用机构的科研、管理和决策人员参考。注意,本书有很大篇幅是讲基因芯片和蛋白质结构预测的。

《生物信息学--基因和蛋白质分析的实用指南》 ”Bioinformatics--A

Practical Guide to the Analysis of Genes and Proteins "Andreas D.Baxevanis B.F.Francis Ouellette 著李衍达 孙之荣 等 译清华大学出版社 2000年8月 第一版这本书由前卫计算生物学家撰写,贯穿了已有的工具和数据库,包括应用软件、因特网资源、向数据库提交DNA序列以及进行序列分析和利用核酸序列与蛋白质序列进行预测的的方法。以下是该书的目录:1.因特网与生物学家,2.GeneBank序列数据库,3.结构数据库,4.应用GCG进行序列分析,5.生物数据库的信息检索,6.NCBI数据模型,7.序列比对和数据库搜索,8.多序列比对和实际应用,9.系统发育分析,10.利用核酸序列的预测方法,11.利用蛋白质序列的预测方法,12.鼠类和人类公用物理图谱数据库漫游,13.ACEDB: 基因组信息数据库,14.提交DNA序列数据库。本书有很多实际的序列和序列分析的例子。这本书适合高等院校的师生和从事生物工程研究的科技工作者阅读。

在第14章提及的通讯资源:互联网和通信地址;电话和传真号码

DDBJ/EMBL和GenBank的一般联系信息以及提交DNA序列到这些数据库的入口。

DDBJ(信息生物学中心,NIG)

地址:DDBJ,1111 Yata,Mishima,Shiznoka 411,Japan

传真:81-559-81-6849

E-mail

提交: ddbjsub@ddbj.nig.ac.jp

更新: ddbjupd@ddbj.nig.ac.jp

信息: ddbj@ddbj.nig.ac.jp

互联网

主页:

WebIn:

GenBank(国家生物技术信息中心,NIH)

地址:Gen Bank National Center for Biotechnology Information, Nationtional Library of Medicine, National Institutes of Health, Building 38A, Room 8N805, Bethesda MD 20894

电话:301-496-2475

传真:301-480-9241

E-mail

提交: gb-sub@ncbi.nlm.nih.gov

EST/GSS/STS batch-sub@ncbi.nlm.nih.gov

更新: update@ncbi.nlm.nih.gov

信息: datalib@ebi.ac.uk

互联网

主页:

BankIt:

在DNA序列数据库中使用的遗传密码:

DDBJ/EMBL/GenBank特征表文档可用WWW方式获得或者从EBI或NCBI的FTP服务器上得到PostScript文件。ftp://ncbi.nlm.nih.gov/genbank/docs/ ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/

EMBL和GenBank数据库的版本信息

EMBL ftp://ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc

GenBank ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt

Sequin: DNA序列数据库的提交和更新工具 http://www.ncbi.nlm.nih.gov/Sequin

EST, STS和GTS主页,获取信息和向这些特定GenBank数据库提交序列

EST http://www.ncbi.nlm.nih.gov/dbEST

STS http://www.ncbi.nlm.nih.gov/dbSTS

GSS http://www.ncbi.nlm.nih.gov/dbGSS

篇6:生物信息学

本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。实验一 熟悉生物信息学网站及其数据的生物学意义

实验目的:

培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。

实验原理:

利用互联网资源检索相关的国内外生物信息学相关网站,如:NCBI、SANGER、TIGR、KEGG、SWISSPORT、Ensemble、中科院北京基因组研究所、北大生物信息

学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathway等数据,理解其重要的生物学意义。

实验内容:

1.浏览和搜索至少10个国外和至少5个国内生物信息学相关网站,并描

述网站特征;

2.下载各网站的代表性数据各10条(组)以上,并说明其生物学意义;

3.讨论各网站适合做何种生物信息学研究的平台,并设计一个研究设想。实验报告:

1.各网站网址及特征描述;

2.代表性数据的下载和生物学意义的描述;

3.讨论:这些生物信息学相关网站的信息资源,可以被那些生物信息学

研究所利用。

参考书目:

《生物信息学概论》 罗静初 等译,北京大学出版社,2002;《生物信息学手册》 郝柏林 等著,上海科技出版社,2004;

《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。实验二 利用BLAST进行序列比对

实验目的:

了解BLAST及其子程序的原理和基本参数,熟练地应用网络平台和Linux计算平台进行本地BLAST序列比对,熟悉BLAST结果的格式和内容并能描述其主要意义,同时比较网上平台和本地平台的优缺点。

实验原理:

利用实验一下载的核算和蛋白质序列,提交到NCBI或者其他拥有BLAST运算平台的网页上,观察其基本参数设定库文件类型,并得到计算结果;同时在本地服务器上学会用formatdb格式化库文件,并输入BLAST命令进行计算,获得结果文件。

实验内容:

1.向网上BLAST服务器提交序列,得到匹配结果;

2.本地使用BLAST,格式化库文件,输入命令行得到匹配结果;

3.对结果文件进行简要描述,阐述生物学意义。

实验报告:

1.阐述BLAST原理和比对步骤;

2.不同类型BLAST的结果及其说明;

3.讨论:不同平台运行BLAST的需求比较。

参考书目:

《生物信息学概论》 罗静初 等译,北京大学出版社,2002;

《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。

实验三 利用ClustalX(W)进行

多序列联配

实验目的:

掌握用Clustal X(W)工具及其基本参数,对具有一定同源性和相似性的核酸与蛋白质序列进行联配和聚类分析,由此对这些物种的亲缘关系进行判断,并且对这些序列在分子进化过程中的保守性做出估计。

实验原理:

首先对于输入的每一条序列,两两之间进行联配,总共进行n*(n-1)/2次联配,这一步通过一种快速的近似算法实现,其得分用来计算指导树,系统树图能用于指导后面进行的多序列联配的过程。系统树图是通过UPGMA方法计算的。在系统树图绘制完以后,输入的所有序列按照得分高低被分成n-1个组,然后再对组与组之间进行联配,这一步用Myers和Miller算法实现。

实验内容:

1.明确软件所支持的输入文件格式,搜集整理出合适的数据;

2.在Windows环境运行Clustal X,在Linux环境运行Clustal W;

3.实验结果及分析,用TREEV32或Njplotwin95生成NJ聚类图。

实验报告:

1.整理好的符合Clustal的序列数据;

2.提交数据网页记录和各步骤记录;

3.提供聚类图和多序列联配图,并说明意义。

参考书目:

《生物信息学概论》 罗静初 等译,北京大学出版社,2002;

《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。实验四 ESTS分析

实验目的:

熟悉使用一系列生物信息学分析工具对测序得到ESTs序列数据进行聚类处理,由此对获得表达基因的丰度等相关信息,并且对这些表达基因进行功能的初步诠释,为后续实验通过设计RACE引物获得全长基因,以及进一步的功能注

释和代谢途径分析做好准备。

实验原理:

首先用crossmatch程序去除ESTs原始序列中的载体成分和引物成分,然后用phrap生成congtig和singlet,用blast程序进一步将有同源性的contig和singlet进行功能聚类,最后通过blast对聚类获得的cluster进行功能注释。在实验过程中将用到一些本实验室写好的perl程序用于连接各数据库和工具软件。

实验内容:

1.运行CodonCode Aligner程序,并用它建立工程文件,导入例子文件

夹里面的数据;练习对序列的各种查看方式。

2.使用CodonCode Aligner程序里的Clip Ends, Trim Vector, Assemble

等功能,完成序列的剪切、去杂质、组装工作。

实验报告:

1.实验各步骤记录和中间结果文件;

2.举例简要说明结果文件中数据的生物学意义。

参考书目:

《生物信息学概论》 罗静初 等译,北京大学出版社,2002;

《基因表达序列标签(EST)数据分析手册》 胡松年 等著,浙江大学出版社,2005。

实验五 利用Primer Premier5.0设计

RACE引物

实验目的:

熟悉PCR引物设计工具Primer Premier5.0的一些基本功能,能够根据实验需要选择相应的引物设计方法设计PCR引物。

实验原理:

PCR实验是当代分子生物学的基本实验之一,由于目标序列和实验目的的不同,相应设计引物的要求也不一样。本实验延续ESTs分析结果,对于其中需要获得全长的基因进行RACE引物的设计,及5’和3’RACE引物,配合接头序列设计单向引物,并模拟练习通过连接获得全长的基因CDS序列。最后设计已知全长基因序列的PCR扩增引物。

实验内容:

1.从网站下载并安装Primer Premier5.0;

2.从 GenBank 中任意获取一个 DNA 序列,设计出该序列的合适引物; 实验报告:

1.实验各步骤使用的数据、运算平台、结果文件记录;

2.比较不同引物设计平台和不同PCR实验的差别;

参考书目:

《生物信息学概论》 罗静初 等译,北京大学出版社,2002;《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。

实验八 perl程序的安装、编写、调试 实验目的:

培养学生能在windows和Linux两种平台安装perl解释器、编写perl程序以及debug和运行的能力,熟悉perl语言基本语法,学会熟练编写和运用perl程序进行基础生物信息学研究。

实验原理:

Perl语言是一门通用的脚本语言,具有强大的字符串处理功能,是生物信息学研究的强大帮手,学会了perl语言,就能方便地处理生物信息学研究中遇到的各种字符串文本,促进研究的快速进行。

实验内容:

1.下载perl程序在Windows和Linux下的安装包并进行安装;

2.编写简单的perl程序,并学会debug;

3.编写具有简单功能的碱基处理perl程序。

实验报告:

1.perl解释器安装方法;

2.perl解释器debug方法;

3.讨论:perl语言在生物信息学研究中所起到的积极作用。

参考书目:

《PERL 编程24学时教程》(美)皮尔斯著 王建华等译,机械工业出版社,2000;

篇7:生物信息学简介

生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。

具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。

生物信息学是一门利用计算机技术研究生物系统之规律的学科。

目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。

1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?

生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W.Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。

生物信息学的主要研究方向: 基因组学系统生物学-比较基因组学,1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议,生物信息学发展到了计算生物学、计算系统生物学的时代。

姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。

原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。

2、发展简介

生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在,1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测

定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋)。DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对。这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制。他们的理论奠定了分子生物学的基础。DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。DNA的复制需要一个DNA作为模板。Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础。正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然。2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮。由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋。毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,“生物信息学”正是从这一前提产生的交叉学科。粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律。它的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”,解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。

3、主要研究方向

生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点。

1、序列比对

序列比对(Sequence Alignment)的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的。

2、蛋白质结构比对和预测

基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。氨基酸的序列内在的决定了蛋白质的3维结构。一般认为,蛋白质有四级不同的结构。研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成。直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构

在进化中更稳定的保留,同时也包含了较AA序列更多的信息。蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模(homology modeling)和指认(Threading)方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。

3、基因识别非编码区分析研究

基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制。显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中。分析非编码区DNA序列目前没有一般性的指导方法。在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等。

4、分子进化和比较基因组学

分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性。通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的。早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据。近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化。在匹配不同种族的基因时,一般须处理三种情况:Orthologous:不同种族,相同功能的基因;Paralogous:相同种族,不同功能的基因;Xenologs:有机体间采用其他方式传递的基因,如被病毒注入的基因。这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现。

5、序列重叠群(Contigs)装配

根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。从算法层次来看,序列的重叠群是一个NP-完全问题。

6、遗传密码的起源

通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今。不同于这种“冻结”理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。

7、基于结构的药物设计

人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。这一领域目的是发现新的基因药物,有着巨大的经济效益。

8、生物系统的建模和仿真

随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop,2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络(PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。

9、生物信息学技术方法的研究

生物信息学不仅仅是生物学知识的简单整理和数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难,需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。

10、生物图像

没有血缘关系的人,为什么长得那么像呢?

外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?有什么生物学基础?基因是不是相似?我不知道,希望专家解答。

11、其他

如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法。从现在的发展不难看出,基因工程已经进入了后基因组时代。我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识。

4、生物信息学与机器学习

生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题.究其原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效。机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,“噪声”模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能.机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法.早期的科学方法——观测和假设——面对高数据的体积,快速的数据获取率和客观分析的要求——已经不能仅依赖于人的感知来处理了.因而,生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding).2)生成假设

和形式化模型来解释现象[6].大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次,机器学习方法中常采用“黑箱”操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.5、生物信息学的数学问题

生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明.1、统计学的悖论

数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖论莫过于均值了,就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于对数据的结构缺乏一般性认识而产生的.2、度量空间的假设

在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.那么,是否这种前提假设具有普适性呢,我们不妨给出一般的描述:假定两个向量为A,B,其中,则在假定且满足维数间线性无关的前提下,两个向量的度量可定义为:(1)依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息学中常采用的一般性描述,即假定了变量间线性无关.然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的度量公式可由下式给出:(2)上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足(3)时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线性相关性,我们正在研究这个问题.6、统计学习理论在生物信息学中应用的困难

生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来改善性能是必然的[7].以下对基于这一思想产生的统计学习理论,Kolmogorov复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介绍.支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过最大化两个数据集的最小间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃

刀(“Occam Razor”)原理,近年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索的空间.7、讨论与总结

人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这些问题做出探讨和思索.启发式方法

Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BLAST,FASTA.乐观中的隐扰

生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入“后基因组时代”,目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在的隐扰呢不妨回顾一下早期人工智能的发展史,在1960年左右,西蒙曾相信不出十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现实.反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐观呢 现在说肯定的话也许为时尚早.8、总结

篇8:生物信息学一级数据库

生物信息学是一门新兴学科,在各大高等院校医学或生物学相关专业都有与之相关的课程或专业开设。与我们常见的物理、数学、法学等学科不同,生物信息学更像是一个学科领域,它不仅仅局限于某个科学研究,而是综合运用数学、计算机学和生物学的各种工具及方法来分析和理解在大数据背景下的生物学意义[1]。经过20余年的发展,生物信息学已在分子进化、基因测序、遗传及变异研究等领域取得了突破和成果,是21世纪人类三大计划之一“人类基因组计划(Human Gene Project HGP)”的核心支撑学科。在美国,早于1988年便成立国家生物技术信息中心(NCBI),随后欧洲和日本在1993年和1995年分别建立了欧洲生物信息学研究所(EBI)和信息生物学中心(CIB)用来对数以万计的核酸及蛋白质等数据进行维护并发展至今日趋成熟[2]。生物信息学于上世纪90年代初开始逐渐引起国内科学工作者的重视,经过20多年的发展也已初具规模。笔者通过对近20年公开发表的有关生物信息学关键字的文章进行搜索,运用Excel制图绘制了自1996年至今每年发表文章数量的散点图。从图1可以发现,关于生物信息学学科的研究数量在2014年达到顶峰,并逐渐开始下滑。同时,由于搜索结果包含杂质数据(如被动截取“信息学”为关键词),为了使图表信息量有度可量,笔者继续对在认知上与生物信息学相关的科学领域进行关键词搜索,分别为“数据挖掘”和“人工智能”,并绘制图2。由该图可直观地看出,人工智能的研究一直稳步发展,符合21世纪科技高度发展的大趋势,而数据挖掘技术的相关研究自2005年以来迅猛增长并赶超人工智能。综合分析其主要原因是由于中国人口众多,自2005年以来互联网用户不断增加,全民联网的时代逐渐构成,互联网信息产业的急剧扩大以及电子商务、云技术等网络相关产业的发展带来的信息膨胀,使越来越多的人意识到大数据的作用和研究数据挖掘对经济发展、社会进步的重要影响,进而推动数据挖掘的学科发展。

2 中医大数据背景下的生物信息学课程教学

从图2的对比可以看出,生物信息学的研究数量与其他两个学科对比,则显得相形见绌。也就是说,生物信息学在我国的发展仍较为缓慢,使之与其对人类社会的贡献度不成正比。进一步对图1的搜索结果进行高级检索,对已有的生物信息学研究进行划分,将”中医”关键词加入其中,结果发现将中医与生物信息学相结合进行研究的文献少之又少,每年文献不过20左右。生物信息学的作用就是利用计算机等技术对海量的生物数据进行分析并洞察隐藏在其中的规律,而中医数据经历数代中医名师的记录和数十年来信息存储技术的发展已经俨然呈现出高纬度、高阶度的大数据结构。因此,生物信息学在中医数据的研究中一定具有其特殊的价值和意义,是从微观层面描述中医整体结构的重要手段。本文将以中医证侯、病证和中医复杂性为切入点,结合研究生物信息学在其中的应用价值,并讨论在教育教学过程中如何使中医和生物信息学有机结合,做到融会贯通。

2.1 从“定性”和“定量”学习角度看基因组学学习中医“证”本质

在中医学中,“证”是立方立法的基础,医者通过四诊获取的信息进行综合分析和判断,从病症体征等表现集合入手,得出相应的证候,有针对性的用药治疗。中医与西医不同,讲究以整体论看待人体以及病变,“辨证论治”思想也是千百年来各名中医学者通过反复探索得出的实践经验,对中医遣方用药具有决定性的指导意义。而西医认为,疾病的发生与发展是与人体某段特异的基因的改变有关,HGP的研究目的也正是为了揭示人体的构成奥秘从而从本质上研究疾病的产生和发展规律[3]。因此,中医与西医在指导医者诊疗的哲学思想上是有很大不同,甚至可以说是截然相反的。然而中医与西医的内在关联却无处不在,结合点之一正是基因与证候的关联。对于基因组学和中医证候的学习方法是不同的,一个是定量学习,另一个则是定性学习,定量学习有助于学生更加客观的研究生物体的发展规律,并结合现代计算机技术做到多学科交叉学习与实验,而不足之处在于缺乏主观思考、学习方式较为分散缺乏整体思维把控;而定性学习则以某一指导思想为主线,通过对某些案例及知识长时间的观察和分析,从中得出结论。定量学习如基因组学更重视量化计算及工具的使用,而定性学习如中医证候则更重视理论与实践结合,整体到局部学习。在学习的过程中,无论基因组学还是中医证候,都会以疾病为具体的研究对象。从西医上说,基因是决定人是否患病的内部原因,通过遗传或基因状态的改变都可能导致疾病的产生,从中医上说,证候是疾病状态下的临床类型,反映了机体在疾病发展过程中的病理特征[4]。因此,将证候与基因组学统一学习,实则是将定量与定性学习相结合以实际疾病案例和数据着手从而多方面运用计算机、西医学、证候学、数学等学科知识对生物大数据进行分析的综合学习方法。

2.2 基于蛋白质组学学习中医病证相关性

证侯是人体生命活动的一种表现,而生命活动的主要执行者是蛋白质,两者之间必然会有隐秘且细致的联系,我们也应以此为出发点,培养学生的发散学习方法,综合学科进行学习。自HGP的完成宣告了后基因组时代的到来后,研究生命科学的重心也由基因组学向蛋白质组学逐渐转变,作为教育者也应跟上科学发展的潮流,把生物科学研究和相关教学模式从基因水平向蛋白质水平转变。与此同时,蛋白质组学是从整体角度分析细胞内的动态变化以及蛋白质组成成分、表达水平等,它的研究方法学内容与中医的整体观和辩证论治观有着许多相同之处。蛋白质组学在分子水平上的DNA修饰和基因调控反应生命体的整体状态(即阴平阳秘),中医理论强调从整体观对疾病进行认知,认为疾病的发生是人体整体功能的失调所致(即阴阳失调),重点在于辩证论治[5]。在教育教学过程中,将基因或蛋白质方面的研究从结构研究向功能研究转变,使研究更具体,透过相关功能性测试实验,发现基因之间的相互联系及相互作用,在定量学习的过程中培养学生的定性思维,使学生善于发现问题及对象之间的关联。正如数据库实体关系模型中的E-R图一样,在进行蛋白质组学和中医病症相关性研究教育的过程中,中医病证和蛋白组学可以看做是两个看似毫无关联的实体,而通过“疾病”将两者相连,透过此种关系可以衍射出两个学科方面的深入学习。

2.3 运用复杂系统性方法学习中医药复杂系统

中医药的复杂性相比西医有过之而无不及,原因主要在于相对于“结构决定功能”的西方医学思想,中医更侧重于“关系决定功能”,在这种情况下,无论是辨证论治还是症状体征变化,有关中医诊断和治疗的信息都是已高度离散和非线性的方式存储,使得中医称为典型的“复杂自组织系统”[6]。尤其在信息离散度和复杂度较高的中医证侯系统中,症状变量与证侯信息混杂在一起,想辨别两者的区别和联系是非常困难的事情,单纯的研究数据往往缺乏正确的方向,而单纯的研究理论则往往枯燥乏味。因此,在教学过程中,可以将复杂系统方法学引入中医系统学习,通过复杂系统中的熵分划方法将证侯系统的离散变量加工转化为线性关联集合,即将症状变量通过关联度集合成多个症状集合,并将症状集合与关联度较高的证侯要素进行联结。以此方法既可以激发学生对理论学习的兴趣,又能以理论指导实践,对中医证侯大数据进行信息提取,达到全面学习。

3 结束语

中医信息学已经作为一门新兴学科在我国各大高校开设,相关师生深入研究和学习,主要目的就是发掘蕴含在中医几千年发展结晶中的奥秘。关于中医药数据的数据挖掘技术和研究也在近年日益增长,这都表明人们已经愈来愈关注国粹,关注健康,关注未来。这也表明与之相关的学习和研究对未来的人生发展和机遇都有着深远的影响。然而,数据挖掘的技术并不完全适用于中医药复杂系统中的信息发掘,若单纯地将两者进行结合教学,学生可能缺少知识衔接,缺乏过渡。这时若将生物信息学引入二者其中并结合生物信息学相关智能科技手段和技术,则可以从宏观和微观两个方面去看待生命体:宏观上面对复杂的中医系统不需感到困惑,而是以“复杂系统方法论去解决复杂系统”,使学生不要总想着从每一个局部都能分析到问题的本质,而是接受复杂性,从复杂系统的角度去解释生命体的自组织现象,对生命体的宏观表现进行研究;微观即是在分子水平上去分析中医证侯的本质,方剂的复杂体系,去了解生命体内部的调控机制等,以此加深学生对中医理论的理解以及对生物信息学工具和技术运用的融会贯通。

摘要:分析近二十年来生物信息学及中医相结合研究在我国的发展现状,提出中医与生物信息学相结合的教育教学方向,从“定性”和“定量”学习方法、“基因组学与证本质”、“蛋白质组学与病症关联”以及“以复杂系统方法论解决复杂中医系统”等三方面阐述生物信息学各项技术在中医大数据下的应用模式和教学方法。

关键词:中医大数据,生物信息学,高校教学

参考文献

[1]钟涛.基于复杂系统方法的慢性胃炎中医问诊证侯建模研究[D].上海:华东理工大学,2014.

[2]谭从娥,王米渠,冯文哲等.生物信息学分析寒症海量数据的探索[J].中华中医药学刊,2008,26(12):2569-2570.

[3]李方玲,梁嵘.对中医证侯规范化研究的探讨[J].辽宁中医杂志,2006,33(4):386-387.

[4]西广成.复杂系统方法学与中医证侯建模[M].北京:科学出版社,2010:91-95

[5]陈小野.证侯实质研究中弱特异性的正观面[J].医学与哲学.1995,16(6):311.

上一篇:河南中小学寒假时间重磅出炉下一篇:浅析土地储备资金面临的法律问题