基因挖掘

2024-08-08

基因挖掘(精选六篇)

基因挖掘 篇1

关键词:DNA微阵列,支持向量机,分类

目前, 微阵列技术已应用到肿瘤的分类、基因功能研究、药物靶位识别等许多方面, 特别是在癌症的诊断及治疗中微阵列起着重要的作用。基因芯片技术可以对包括白血病、淋巴癌、乳腺癌、前列腺癌等多种癌症的癌细胞亚群进行区分, 还可利用它观察药物对肿瘤细胞基因表达谱的影响, 评估药物对肿瘤治疗的可行性, 从中筛选出抗肿瘤候选药物, 针对不同的肿瘤类型使用不同的治疗方法, 从而最大化药物疗效、最小化毒性[1,2,3]。

通过微阵列实验, 得到的是包含成千上万个基因的表达数据, 其形式化为基因表达矩阵。基因表达数据通常具有数据量大、维数高、样本小、非线性的特点, 这对其数据分析方法提出了挑战, 但由于样本采集困难造成的小样本问题, 传统机器学习方法显现出很大的局限性。

首先运用信噪比方法筛选出表达水平发生显著性变化的特征基因, 然后在此特征基因集合的基础上建立支持向量机分类模型, 通过对白血病基因芯片数据进行试验, 得到了较好的分类结果。

1 材料与方法

1.1 材料

采用的数据集来自Golub等[1]收集的急性白血病数据集, 该数据集由两种不同种类的白血病样本组成, 急性淋巴白血病ALL 和急性骨髓白血病AML, 数据集分为独立的训练集和测试集, 训练集包含38 个样本 (27个ALL, 11 个AML) , 测试集包含34 个样本 (20 个ALL, 14 个AML) , 每一个样本均含7 129个基因表达数据。

1.2 方法

1.2.1 支持向量机

支持向量机 (Support Vector Machine, SVM) 是Vapnik等[4]根据统计学习理论提出的一种新的机器学习方法, 其最大特点是根据Vapnik提出的结构风险最小化原则, 尽量提高学习的泛化能力。

支持向量机的判别函数为:

f (x) =sgn[undefineda*iyiK (xi, x) +b*] (1)

式 (1) 中K (xi, x) 称为核函数, 核函数的选取应使其为特征空间的一个点积, 即存在函数Φ, 使得

Φ (xi) ·Φ (x) =K (xi, x) (2)

采用Libsvm软件包进行实验, 该软件包可免费从http://www.csie.ntu.edu.tw/~cjlin/libsvm下载。

1.2.2 特征提取和规范化

癌症的模式识别是在已有数据的基础上建立分类器, 并利用所建立的分类器对未知样本的状态进行判别。但是, 由于高密度芯片可以同时检测成千个上万个基因的表达水平, 在很多情况下, 只有一小部分基因对识别是有价值的, 而且相对于样本数来说, 过多的基因 (特征) 个数对以后使用的统计方法也会产生不良的影响。因此, 在判别分析之前需要进行基因特征提取, 选取那些在不同总体样本间表达差异显著的基因。目前常用的基因筛选方法主要有:信噪比方法、t-检验、Wilcoxon秩和检验方法。

现采用信噪比方法进行特征提取[1], 其公式如下

undefined (3)

式 (3) 中j为基因编号, u1 (j) 是标记为1的样本中基因j的均值, σ1 (j) 是其标准差:u2 (j) 是标记为2的样本中基因j的均值, σ2 (j) 是其标准差。RSN (j) 为基因的得分, 得分越高说明基因j在不同总体样品间表达差异越显著。据此计算所有基因的得分, 按照降序排序, 选出得分最高的p个基因。作为样本的维数, 这就是一个特征提取的过程。实验中, 对白血病数据集, 取 p=10, 20, 30, 50, 100, 600。对比不同的p值对分类结果的影响, 得出最少基因取得最好的分类效果的分类器。

由于基因表达数据的值变化比较大, 为了便于处理, 加快样本训练的速度, 有必要把数据进行规范化, 使之落入一个小的特定区间, 如 -1和1区间。常用的规范化方法有最小-最大规范化、z-score 规范化和按小数定标规范化。其中最小-最大规范化能保持原始数据的关系, 因此本文把特征提取后的数据集 (包括训练数据和测试数据) 同时用最小-最大方法进行规范化, 其公式如下

undefined (4)

式 (4) 中j为基因编号, yj, maxj, minj分别是规范化前基因j的表达值、基因j的最大值、最小值, new_maxj、new_minj分别是规范化后基因j的最大值、最小值, xj是规范化后基因j的值, 实验中new_maxj、new_minj分别取1和-1, 则规范化后xj∈[-1, 1]。

2 结果与讨论

采用SVM对基因表达数据进行分类, 并在训练集用SVM的不同核函数进行性能测试。核函数的选择对SVM的分类效果影响很大, 通过不断尝试各种核函数 (线性核函数、多项式核函数、径向基核函数和Sigmoid核函数) , 选取了对DNA微阵列数据分类比较理想的线性核函数:K (xi, x) = (xi·x) +1。目前国际上对使用多少基因来构造分类器仍没有一个确定的最优值, 现分别筛选出p=10, 20, 30, 50, 100, 600个基因来构造分类器, 采用SVM方法对测试集进行分类。并且应用交叉证实方法[2], 得到34个测试样本在分类器下的输出结果, 其分类结果如表1所示。

从表1可以看出, 白血病数据集经信噪比方法进行特征提取后, 其识别率有较大的提高, 性能有显著的提高, 提取的基因的个数也对识别率有影响, 不同的p值其分类结果往往不一样。对白血病数据集, 在p=20, 30, 50, 100时, 使用线性核函数的支持向量机可以达到最好的识别效果。

把表1的数据与Golub等人[1]的结果相比, Golub等人首先提取50个特征基因, 然后用加权投票的方法在含有34个样本的测试集中进行测试, 结果有29个样本被正确分类。而本文使用线性核函数的SVM, 就可以在34个样本测试集中正确分类33个样本, 这表明本文提出的方法对DNA微阵列数据进行分类是有效的。

3 结论

根据DNA微阵列数据集维数高、样本小、非线性的特点, 提出了一种基于支持向量机的基因表达数据分类方法, 采用信噪比方法进行基因特征提取, 用最大-最小方法进行规范化, 构造支持向量机SVM分类器。通过对白血病基因表达数据中进行性能测试, 实验结果表明使用该方法可以对DNA微阵列数据进行有效的分类, 达到了较高的识别效果。

参考文献

[1]Golub T, Slonim D, Tamayo P, et al.Molecular classification of cancer:class discovery and class prediction by gene expression moni-toring.Science, 1999;286 (5439) :531—537

[2]孟宪花, 于彬, 王翼飞.基于贝叶斯统计方法的两总体基因表达数据分类.应用数学与计算数学学报, 2005;19 (2) :31—39

[3]Antonov A V, Tetko I V, Mader MT, et al.Optimization models for cancer classification:extracting gene interaction information from mi-croarray expression data.Bioinformatics, 2004;20 (5) :644—652

基因挖掘 篇2

国外大豆种质资源的基因挖掘利用现状与展望

中国已从美国和日本等22个国家引进大豆近等基因系、特殊遗传材料、大豆育成品种等2156份,经过评价已编入中国大豆品种资源目录.本文对国外引进大豆种质资源的特点及在中国研究与利用中所取得的成绩进行了总结,提出利用引进国外种质拓宽中国大豆品种遗传基础的表型和分子证据,回顾了国外种质在建立大豆抗胞囊线虫、抗疫霉根腐病、脂氧酶缺失、胰蛋白酶抑制剂缺失和抗草甘膦EPSP酶等特性的鉴定体系、标记和定位重要性状(耐盐性、抗大豆花叶病、无脂氧酶、无胰蛋白酶抑制剂)基因、开展分子标记辅助背景选择研究方面发挥的重要作用.我国大豆育种的实践证明,国外种质的利用促进了中国大豆新品种产量的增长、品质的改进和抗性的`提高.因此,今后重视国外种质资源的有目的性的引进,加强对国外种质资源的深入研究,为国外种质资源在中国大豆遗传育种学、表型组学、基因组学、蛋白组学和酶学等领域的有效利用创造条件.

作 者:邱丽娟 常汝镇 袁翠平关荣霞 刘章雄 李英惠 QIU Li-juan CHANG Ru-zhen YUAN Cui-ping GUAN Rong-xia LIU Zhang-xiong LI Ying-hui  作者单位:中国农业科学院作物科学研究所/国家农作物基因资源与遗传改良重大科学工程/农业部作物种质资源与生物技术重点开放实验室,北京,100081 刊 名:植物遗传资源学报  ISTIC PKU英文刊名:JOURNAL OF PLANT GENETIC RESOURCES 年,卷(期):2006 7(1) 分类号:Q94 关键词:大豆   国外引种   基因资源   分子标记   利用  

挖掘党史富矿 传承红色基因 篇3

天空飘着绵绵细雨,在苍松翠柏的映衬下,金寨县红军广场革命烈士纪念塔显得格外庄严肃穆。敬献花篮仪式在雨中举行,两名武警战士抬起花篮,正步来到革命烈士纪念塔前,将花篮安放在纪念塔基座上。总书记缓缓走上前去,悉心整理写着“革命烈士永垂不朽”的红色缎带,向革命烈士纪念塔三鞠躬。

随后,习近平来到金寨县红军纪念堂。大厅里,陈列着老红军照片、红军烈士英名录、红军雕塑、在金寨组建的11支和在金寨战斗过的8支成建制的红军队伍序列表,展示了金寨红军的风采和丰功伟绩。在革命战争年代,金寨县共有10万儿女为党捐躯。凝望着一幅幅黑白照片、念叨着一个个熟悉的名字,总书记回忆起不少革命先辈的英雄事迹。

在金寨县革命博物馆,立夏节起义者使用的粗糙枪支、从金寨县开始传唱的《八月桂花遍地开》的歌词曲谱、鄂豫皖革命根据地创建初期的斗争形势图……习近平一次次驻足凝视、一次次陷入沉思,并不时地询问起有关细节,对革命先烈的崇敬之情溢于言表。

总书记深情地说,一寸山河一寸血、一抔热土一抔魂。过去的烽火岁月,金寨人民以大无畏的牺牲精神,为中国革命事业建立了功勋。我们要沿着革命前辈的足迹继续前行,把红色江山世世代代传下去。革命传统教育要从娃娃抓起,既要注重知识灌输,又要加强情感培育,使红色基因渗进血液、浸入心扉,引导广大青少年树立正确的世界观、人生观、价值观。

离开博物馆时,总书记专门找到金寨县红军历史研究会会长,一边和他亲切地握手、一边悉心地嘱咐:要继续加强党史研究工作,充分挖掘红色文化资源,进一步弘扬红军精神、传承红色基因,教育子孙后代,永做红军传人。

4月25日晚,县委、县政府召开会议,认真传达学习总书记的讲话精神,研究部署贯彻落实意见。4月27日上午,县委向全县作了传达。5月4日,再次召开县委常委(扩大)视频会议,系统传达、认真学习。金寨政府网、金寨先锋网等制作了专题网页,县广播电视台制作了新闻专题片,全方位、多角度地宣传报道总书记考察金寨时的有关指示,全县上下迅速掀起了学习贯彻总书记考察讲话精神的热潮。

金寨县委、县政府认为,厚重的红色既是底色,更是特色,必须把红色精神深深地融入党员干部的精神家园,让“坚贞忠诚,牺牲奉献,永跟党走”的大别山精神在加速金寨跨越崛起的征程中传递正能量、实现“加速度”。为了更好地贯彻总书记考察讲话精神,金寨县委、县政府采取了三项措施:一是高举红色旗帜,坚持把“红色”作为金寨的靓丽名片,作为引领发展、富民强县的特色资源,用“红色”凝聚广大干部群众的智慧和力量,引导广大干部群众积极投身加快发展的伟大实践;二是着力打造党性教育基地,“十三五”期间,全县要重点围绕建设一批革命纪念场馆、提升一批革命遗址形象、编纂一批红色文化书籍、开发一批特色教育课程等目标,完成党校二期工程建设,力争将其打造成为实现年培训学员1.5万人次以上的安徽一流、全国知名的党性教育基地;三是加快建设红色旅游胜地,打造红色旅游精品景区,做大做强红色产业,争取全县游客人数年均增长100万人次以上,加快实现红色资源大县向红色旅游强县的转变。

(责任编辑 李赞庭)

基因挖掘 篇4

一、关注审题, “大”题“小”做

基因, 即遗传的基本单元, 具有物质性和信息性双重属性。无数生物个体的性状都通过基因体现。正如学生解题中遇到的无数大而烦琐的问题。审题时不妨采用“基因”式思维, 精确定位所要考查的基础知识点, 化繁为简。教师可选择审题阶段, 潜移默化地传授学生“大”题“小”做的方法, 明确以下几点。

(一) 择题有针对

高中生物教学中, 教师需要考虑学生的实际情况, 在有限的时间里, 以典型、适量为基准, 有针对性择题, 杜绝搞“题海战术”。如主要针对新课标中对学生生物知识的考查范围和要求, 辅以一些必备生物常识。具体到题目, 可包括高考试题、课后习题精选和部分高质量的模拟新题型。

(二) 思考有时间

教师在讲题前, 可先让学生通读题干并适当控制时间, 期间给出一些提示或线索, 有助于学生养成自我思考的习惯, 也有助于教师的后续讲解。教师通过审题, 引导学生将自己的审题方式与教师的讲解方式对比, 查漏补缺, 形成适合自己的良好的审题习惯和方式, 提高解题准确性和效率。此外, 对于学生近期做过的题目则“趁热打铁”, 既能节省回顾的时间, 还能帮助学生加强印象, 提高解题效率。

(三) 知识有基础

“思义患不明”, 许多学生做题时, 常常不假思索拿到题目就动笔, 当看到题干很长时下意识认为很难便开始慌乱, 导致解题失误。总结原因, 就是不善于“大”题“小”做。笔者在指导学生解题时, 常举出几道“大”题, 通过具体审题让学生明白看似“大”的题有些其实比“小”题更加容易。即使是有一定难度的“大”题, 所谓“万变不离其宗”, 拨开“大”题的云雾, “基因”式溯本求源。首先明白其考查什么, 定位到基础知识点, 继而阶梯式解题。这样当许多学生看到“大”题时首先想到的反而是“这道题这么长, 应该含有足够的解题信息, 说不定很简单”, 于是更加主动地尝试解题。

不论遇到什么类型的题目, 只要认真审题, 在审题的基础上进行求解, 许多高难度、看似烦琐的题都能迎刃而解。期间教师适时进行学法指导, 因为学习方法和学习内容是相互依存的。

二、直击高考, “陈”题“新”做

正如基因可以忠实地进行自我复制, 以保持生物个体的基本特征。通过不同基因的重组可产生新的DNA分子一样。许多“新”题都是通过一些“陈”题产生的。这些题目的考查内容与知识点由“复制”而来, 题干内容和类型则是“重组”而生。通过这种思维方式, 可有效降低学生解题的心理门槛和实际的解题难度。最具代表性的如高考生物试题。

显然, 高考命题者一直在传输一个信号:重视历年高考题。许多资深教师也正努力带领学生走出“考过的题目不会考, 根本不用看”的解题误区。高考试题一般质量较高, 无论内容还是出题方式上都具有很好的参考价值。

在生物高考试题中, 对基本概念的考查基本可以分为生命的物质结构与结构基础、生命活动的调节、生物的遗传变异与进化、新陈代谢、生物与环境等几方面。考查学生对生物知识的掌握与灵活运用、对图标的理解、对实验的应用等技能。因此, 重视高考试题, 通过把以前做过的试题创造性拆分、重组, 或者将近几年的高考试题对比、归类, 联系书本, “陈”题“新”做, 杜绝“死记硬背”, 具有较强的实践意义。

三、拉开距离, 正视“疑盲”点

基因能“突变”, 一方面某些突变会导致疾病, 就像学生在解题时偶尔会遇到一些知识疑点和盲点, 导致不知所措, 百思不解。另一方面, 正如某些突变能带来一些新的原始材料, 使生物更好地进行自然选择一样, 正确处理和利用“疑盲”点, 有助于学生通过解题拉开距离, 增强生物修养与自信心, 起到“锦上添花”的作用。

当学生遇到“疑盲”点时, 教师需适当降低解析难度, 由浅入深, 逐步深入。围绕一个“核心知识点”进行探讨, 同时也要触类旁通, 涉及一些知识点。在解析时, 要充分考虑到学生生物知识面的局限性及其逻辑思维特性, 在平时的教学中鼓励学生积极思考, 发散思维, 源于书本和生活, 也要回到书本和生活。在结合学生兴趣和增大学生生物常识的基础上尽量减少“疑盲”点。另外也需逐步培养学生举一反三的能力。

正视, 不仅是直视面对, 还要正确处理。在教学过程中, 发现许多学生存在“眼高手低”的坏习惯, 部分学生“买椟还珠”, 热衷于一些偏题、难题, 以体现优越性。却忽视了对基础知识的探索, 反而适得其反。因此, 教师要指导学生正视“疑盲”点, 走出“难题不会做, 易题总做错”的怪圈。由易到难、层层递进、衔接过渡。树立正确的解题态度和动机, 鼓励学生充分利用信息技术与网络资源扩大知识面, 面对“疑盲”, 勇敢冷静, 融会贯通。

四、主次分明, 点面结合

基因不是单独存在的, 基因重组遵循一定自然规律。生物教学中指导学生解题时, 也应遵循一定的解题规律, 主次分明, 点面结合。

生物课堂教学千变万化, 学生是学习活动的主体。有时候教师在指导解题时, 课堂上难免会出现“奇思妙想”, 提出一些千奇百怪、难以预测的解法或问题。当学生思维偏离时, 教师除了要分清知识点的主次关系, 也要及时分清解题时课堂情况的主次, 作为解题的组织和引导者, 完成解析后要适时点拨、调控, 掌握“点金”与“留白”的艺术。

除了主次关系外, 许多生物知识之间是相互联系、不可分割的。积极引导学生构建知识网络、点面结合, 使其对知识理解准确深刻, 记忆清晰牢固, 可以提高学生思维的逻辑水平和抽象程度, 为高效解题夯实思维基础。

五、注重思考, 错题巧处理

高中生物教学中, “教”只是手段, “学”才是目的。“学而不思则罔”, 教师要为学生留出足够的时间思考。这贯穿于开始审题到对错题的反思的整个过程。如果教师在解题前后等候一段时间并辅以双向交流, 学生能主动带着疑问听取解题思路, 理解较复杂的讲解, 提升分析能力和综合水平, 在自我解题中显示更多的自信, 成就感明显增强。

古语有云:“靡不有初, 鲜克有终。”有始有终才算一种优质的解题策略。人类记忆曲线的特点, 要求学生对以往的错题难题巧妙处理, 做到“温故知新”。处理好错题, 对于巩固解题效果, 具有举足轻重的作用。笔者发现主要有三种情况:部分学生并不回顾错题, 于是多次出现同样的错误;部分主动性较强的学生则把太多精力花在抄写错题上, 导致时间紧张;还有部分学生在复习回顾时, 掏出厚厚的材料便“望而生畏”。针对高中学生时间宝贵而有限的情况, 笔者建议学生大胆地处理错题:直接将做错的题目从试卷上裁下来后粘贴成本。每一次回顾都对“事故易发地带”有意识地加以强化训练, 将已有把握的题目去除。这样能节约时间, 不断减少复习压力, 事半功倍, 帮助学生回顾和改正错题, 鼓励其找到最适合自己的学习方法。

解题有法, 然无定法, 贵在得法。积极构建“基因”式解题思维, 审查题目“染色体”中包含的基础知识, 辨识其载有的知识点“基因”, 掌控疑盲点的“突变”情况, 达到破译题目根本信息的目的, 优化生物教学中的解题策略。这些是笔者在教学实践中的一些做法和体会, 高中生物教学是一项具有长期性、复杂性和系统性的工程, 期望更多的教师来进一步探讨这一问题, 以推动高中生物教学的发展与提高。

摘要:在高中生物教学中, 教师引导学生掌握好的解题策略十分必要。文章通过挖掘题目中最根本的组成“基因”, 提出生物解题中的几点策略, 在引发学生积极思维、正确答题的同时, 培养其解决问题的意识与能力, 达到事半功倍的效果。

基因挖掘 篇5

1问题描述与定义

设I={i1,i2,…,im}是项目集合(基因集),R={r1,r2,…,rn}为行集(采样数)。其中,数据集Dk={rk,Fk},rk为行集,Fk为集合I中由项目组成的子集。即Fk哿I。如表1所示,I={a,b,c,d,e,f,g,h,l,o,p,q,r,s,t},R={1,2,3,4,5}。为了简便,在后续内容中,项目集 {a,h,f} 将简写为“ahf”,行集{1,3,5}将简写为“135”。

定义1给定项目集F',R'(F')表示包含项目F' 的行集,|R'(F')|表示项目集F' 的支持数sup_count。基因表达数据集D见表1 ,则R'(ae)={234},|R'(ae)|=3。

定义2给定行集R',F'(R')表示R' 中各行包含的共同项目。基因表达数据集D见表1 ,F'(15)={bls}。

定义3给定项目集F',如果不存在同时满足如下条件的F'':(1)F'奂F'';(2)|R'(F')|=|R'(F'')| ,那么项目集F' 是闭合的。

定义4给定项目集F',如果满足(1)F' 是闭合的;(2)|R'(F')|≥min_sup,那么项目集F' 是频繁闭合项目集,其中min_sup为用户自定义的最小支持数。

问题定义:给定数据集D,挖掘所有频繁闭合模式,其中D满足|R'|<<|F'|。

2 CARPENTER算法

CARPENTER算法利用行枚举树结合转置表结构,以深度优先策略挖掘频繁闭合模式,经实验证明了可行性。表1中基因表达数据集D对应的一棵完整的行枚举树如图1所示;表1中基因表达数据集D对应的转置表如图2所示。

3SFCP (Mining Frequent Closed Patternsbased on Sorting)算法

CARPENTER所采用的基于行枚举的方法虽然在基因表达数据的频繁闭合模式挖掘中取得了较好的效率。但是CARPENTER算法的主要工作是递归对转置表进行扫描,生成下层转置表。现有的实验表明,在这一过程中CPU时间都被扫描转置表所占用。特别是当数据集的转置表较大时,CARPENTER算法反复扫描转置表的代价也是非常大的。再者CARPENTER算法虽然采用了一定的修剪技术缩小搜索空间,但没有充分利用最小支持度这一条件对搜索空间进行剪枝。

3.1 SFCP算法思想

从图1中可以看到行枚举树中的每个结点内容即行号与运算的结果,例如,r1={abclos},r2={adehplr},则结点12内容即为r1∩r2={abclos}∩{adehplr}={al}。因此我们构建这样一棵行枚举树,令树中的树根为第0层,每个结点由行号集和项目集组成。这样结点所在层的层号即为该结点的支持度。第一层表示D中各行所对应的项目集,第2层表示D中任意2行数据集进行与运算获得的项目集,第3层表示D中任意3行数据集进行与运算获得的项目集,……直到最后一层。这样算法只需要扫描一次基因表达数据表,以产生树的第一层,此后各层的结点,可由上层结点两两交叉相与产生。

由于在整个树结点构造实现过程中需要用到大量的行集之间求取交集(即求得行集间共同出现的所有项)的运算。该运算占据算法的大部分时间,而由表1可以发现并不是每一行中的项都是有序的数列,例如行集2,其对应的项为{a d e h p l r},这使得与运算过程中的查找效率不高。我们知道,对一个无序数列进行查找其效率远远不及对一个有序数列进行查找。因此我们对行集所包含的项集按照其字母序进行快速排序。然后对第二层的第一个结点产生其所有子结点,再对第三层的第一个结点产生其所有子结点,直到叶子结点。再进行回溯,建立所有的结点。

3.2剪枝策略

这样虽然能够获得所有的闭合模式,但是由于对数据集进行了完全枚举,计算效率较低。为了缩小搜索的空间,SFCP算法中使用了剪枝策略用来去除不必要继续组合产生的结点。

修剪1(定理1)对于行枚举树中项目集为空的结点,无需对其进行产生子结点的交集操作。

证明:如果行枚举树中某结点的项目集为空,则表明该结点不包含任何模式,且它和其他任何结点进行交集操作,得到的结点项目集也为空。因此,没有必要对其进行产生子结点的交集操作。如图1中结点145的项目集内容为空,则没必要继续对它进行运算。

修剪2 (定理2)设x,y为行枚举树中的层数且x<y,在行枚举树产生的过程中,若x层上的结点A的项目集与y层上的B的项目集完全相同。则无需对A进行产生子结点的交集操作。

证明:设A=R(FA){FA},B=B(FB){FB}。这里,R(FA)和R(FB)分别为A和B的行集合,fA和fB分别为A和B的项目集,且fA=fB,因为i<j,则有R(fA)奂R(fB)。设另有其他结点C=R(fC){fC},C与A做交集操作生成的结点为DA=(R(fA)∪R (fC)){fA∩fC},C与B做交集操作生成的结点为DB=(R(fB)∪R(fC)){fB∩fC}。因为R(fA)奂R(fB),故有(R(fA)∪R(fC))奂(R(fB)∪R(fC))。即|R(fA)∪R(fC)|<|R(fB)∪R(fC)|。又因为fA=fB,故有(fA∩fC)=(fB∩fC)。这说明DA和DB有完全相同的项目集,但DA的支持度小于DB,因此,没有必要对A进行产生子结点DA的交集操作。如图1中的结点1234位于行枚举树的第四层且项目集内容为{a},而结点124位于第三层,其对应项目集也为{a}。因此没必要对结点124{a}进行子结点的产生操作。

修剪3(定理3)若A和B两个结点的交集操作得到新结点C,其项目集与A相同,则可用C取代A。

证明:这个剪枝步骤是在定理2的基础上进行的。C作为A的子结点,且与A的项目集相同。由定理2可知,无需对A进行产生子结点的交集操作,可用C取代A。如图1中结点23{aeh}与结点24{aehpr}进行交集操作得到结点234{aeh}。结点234所对应的项目集与23所对应的项目集内容完全相同,因此可以用234{aeh}结点取代结点23{aeh}。

算法1SFCP算法描述如下:

输入:数据集D,最小支持数minsup

输出:频繁闭合模式FCP

方法:

(1)扫描数据集D,对每行所包含的项目集进行字母序排列;

(2)让每行基因数据信息成为行枚举树中第1层(L=1)的结点,结点由行号集和项目集组成;

(3)挖掘频繁闭合项目集。

参数:

CF:保存临时频繁闭合模式,对应各个行扩展后的模式集

FCP:保存最终的频繁闭合模式,由CF累计求出

L:表示结点位于树中的层次

C_node:保存当前层的结点信息

SUBCO:临时的扩展后更高层的结点信息

Tmp_F:当前项目集的内容,如果满足支持度则赋给CF

步骤:

1. For each in R

2. L=2 and CF=ø

3. X={(ri,rj)| ri,rj∈R} // 对所有行集ri,从第2层开始进行交集操作

4. C_node ={xi{f(xi)}|xi∈X }

5. For each xi∈X

6. CF = CF∪f(xi)

7. R-extend (C_node, L, CF) // 对当前结点C_node进行扩展

8. FCP=FCP∪CF

9. Return FCP

10. R-extend(C_node, L, Tmp_F)

11. If (L≥minsup) CF = CF∪Tmp_F// 如果L大于支持数,即为频繁的,那么

// 当前的项目集内容Tmp_F可以添加到CF中。

12. L++ and Tmp_F =ø// 进入行枚举树的下一层

13. For each in C_node

14. SUBCO=øand X=xi// 扩展到高层的结点信息

15. For each xj{f(xj)} in C_node with xi≠xj

16. X=X∪xjand F=f(xi)∩f(xj)

17. If (f(xi) or f(xj) is in FCP) rem ove it from C_node// 如果结点项目集已存在

// 于频繁闭合模式集中,则将其从C_node中移除;修剪2

18. If (F≠覫 )// 如果两个结点项目集的交集不为空,则继续语句19;修剪1

19. If (f(X))=f(xi)) then replace xiwith X// 修剪3

20. Else if (f(X)=f(xj)) then remove xjfrom C_node /修剪2

21. Tmp_F = Tmp_F ∪f(xi)

22. If (SUBCO≠ø) R-extend(SUBCO, L, Tmp_F)

23. Return CF

4实验结果与分析

为了对SFCP算法的性能进行评估,将SFCP算法与CARPENTER算法进行实验比较。实验环境为2.8GHZ CPU、内存为1G、操作系统为Windows XP,算法以C++ 语言编写运行。本文严格按照文献[3]中算法描述编写CARPENTER算法。

实验是基于两个真实数据集:Liver_cancer[4]和Mlung[5]。其中数据集Liver_cancer中描述了19个组织采样,每个采样中描述了593个基因的活动水平;Mlung描述了12个组织采样,每个采样中描述了217个基因的活动水平。支持度增大情况下,算法在两种不同数据集上运行时间的变化情况分别如图3和图4所示。

图3显示了算法以Liver_cancer数据集作为输入的运行情况;图4显示了算法以Mlung数据集作为输入的运行情况。从图中可以看出,在各种Min_sup的测试值下,SFCP算法所需要的运行时间都少于CARPENTER算法。并随着支持数的递减,运行时间递增。因此,本算法的性能要比CARPENTER算法更好。

5结论

文中针对基因表达数据集所呈现出的新特点,提出了基于排序的基因表达数据的频繁闭合模式挖掘新算法SFCP。SFCP算法有别于CARPENTER算法之处在于:它无需产生转置表,只需要扫描数据库一次,对每行对应项目集进行排序以便提高求与运算的时间效率。实验表明SFCP算法优越于CARPENTER算法。

摘要:频繁闭合模式是频繁模式的无损压缩,因此采用频繁闭合模式的挖掘来代替频繁模式挖掘,可以适当的压缩计算和存储开销。文中针对已有的面向基因表达数据集频繁闭合模式挖掘算法CARPENTER多次扫描数据集转置表带来巨大开销的缺陷,提出了基于排序的频繁闭合模式挖掘算法SFCP。在真实数据集上的实验结果表明,该算法效率比CARPENTER算法高。

基因挖掘 篇6

1 基因表达谱数据挖掘在乳腺癌诊断中的应用

1.1 乳腺癌的基因组织学分级

肿瘤的基因组表达模式反映了肿瘤的生物学特性, 基因表达谱可用于区分无法用病理学方法区别的肿瘤类型, 为乳腺癌的生物学研究和预后提供了一种全新的方法。

叶云等[1]通过分析基因芯片对乳腺癌表达谱数据进行筛选, 获得乳腺癌组织学分级相关的特征基因。实验从美国国立生物信息中心共享数据库GEO下载基因芯片数据GSE2109, 对219个芯片样本进行了分析。通过支持向量机留一法处理, 提取得到64个影响乳腺癌细胞分化程度的特征基因。从全局上了解了肿瘤的表达情况, 加深对乳腺癌分化分子机制的认识。

1.2 乳腺癌的基因分型

通过统计学方法对数据进行分析后, 乳腺癌大致可分为五种主要的亚型。这种分型对预测预后和指导治疗起到了一定的作用。

目前有研究显示, HER2亚型在临床预测中存在很大的不确定性, 还应该进一步分类。Gabriela Alexe等[2]通过分析Wang et al和Harris et al等基因表达谱的研究指出, HER2 (-) 可以继续分为6种亚型, HER (+) 可以继续分为2种亚型。研究还进一步指出, 早期HER2 (+) 型乳腺癌如果高表达淋巴细胞相关基因, 会有较低的复发风险。不过该研究尚处于早期阶段, 目前还没有收到治疗效果。

2 基因表达谱数据挖掘在乳腺癌治疗中的应用

2.1 预测环境因素对乳腺癌的影响

现在有观点认为疾病是有疾病自身的因子和环境共同作用的结果。每种疾病的发生、发展, 在自身本质属性的前提下, 受到环境因素的极大影响。而这种影响可以通过对基因表达谱的分析挖掘被预测到。

肿瘤的演化同样取决于环境因素对它的影响。Chirag J Patel等[3]整合了GEO中的基因表达数据和CTD中的基因———化学联系数据, 系统地预测了环境中的化学品与肿瘤之间的联系。通过统计学分析, Chirag J Patel等得到了1 338个环境中化学品与基因的联系。再通过富集, 验证了这些联系与GEO中数据的差别。实验预测了环境中化学品对肿瘤的影响。

2.2 预测乳腺癌新辅助化疗疗效

新辅助化疗是指肿瘤局部治疗前采取的全身细胞毒类药物治疗。随着近年来基因分析技术的发展, 这项技术也被应用于乳腺癌新辅助化疗的疗效预测。

目前己报道了多个与乳腺癌新辅助化疗疗效预测相关的基因芯片分析模型。Bormefoi等[4]为了验证一批能预测新辅助化疗疗效的基因表达谱的准确性, 选择验证了新辅助临床试验ER阴性的乳腺癌患者。这些研究结果可能在临床上用来测试新辅助化疗是否敏感, 从而减少乳腺癌不必要的治疗。

3 基因表达谱数据挖掘在乳腺癌预后预测中的应用

3.1 预测乳腺癌复发风险

在基因表达谱中分析生物分子信号的表达情况, 不仅可以预测乳腺癌复发的风险, 还可以预测到各种治疗方法的治疗效果。

目前, 常用的预测方法是Oncotype Dx试验检测法[6]。Oncotype Dx是首先经过临床验证的多基因实验分析方法。它通过对21种基因表达的检测量化了乳腺癌复发的可能性。它的预测方法简单的说就是:“有利”基因的高表达将导致一个较低的RS值, 而“不利”基因的高表达将导致一个较高的RS值。通过规定的计算方法, 我们可以计算出一个乳腺癌再发风险的从0到100的分数。目前, 这种量化方法已被NSABP所认证, 标准为:低复发风险RS<18, 中复发风险RS 18~31, 高复发风险RS>31。

最新乳腺癌基因芯片研究显示, 乳腺癌的复发转移能力取决于乳腺癌自身因子的作用并可基因表达谱所预测。许多试验已经通过基因表达谱获得了这方面的成功。Ronglai Shen等从4个最近公布的乳腺癌基因表达谱中提取出了2 555个基因。对这2 555个基因进行meta分析, 实验得到了一个可以预测复发风险的90个基因的表达谱。在与传统的通过淋巴结状态来预测复发风险的对比中, 该基因表达谱显示出了极强的优势。

3.2 预测乳腺癌预后存活率

虽然在手术治疗和化学治疗方面, 乳腺癌的治疗方案多且先进, 但是乳腺癌的致死率依然高居不下。目前, 通过遗传分子标记物来预测乳腺癌存活率是这方面最活跃的研究领域之一。在这一临床应用中, 基因表达谱蕴含着富有价值的信息资源, 极具潜力。

Jeffrey C Miecznikowski等调用了NCBI的GEO数据库并且对公共网站进行了查询, 最终得到5个乳腺癌的基因表达谱。实验通过对Cox风险比例模型的对比分析发现, 许多遗传分子标记物和部分遗传路径与乳腺癌患者的存活率有着极强的相关性, 并以此来估计患者接受治疗后的存活率。

4 展望

随着人类基因组计划的完成, 乳腺癌形态学结合基因表达特征的分子分型概念已被许多学者认同。利用DNA芯片等技术对乳腺癌患者的基因表达谱进行分析, 不仅丰富了对乳腺癌发生发展机制的认识, 而且在肿瘤分类、诊断、预后和治疗方面具有重要的理论和应用价值。

参考文献

[1]叶云, 王桂平, 杨晓勤, 等.利用基因表达谱提取乳腺癌细胞分化相关特征基因[J].热带医学杂志, 2010, 10 (4) :377-393.

[2]ALEXE G, GUL S DALGIN.High Expression of Lympho-cyte-Associated Genes in Lower Node-Negative HER2+Breast Cancers Correlates with Lower Recurrence Rates[J].Cancer Research, 2007, 67:10669-10676.

[3]PATEL CJ, BUTTE AJ.Predicting environmental chemicalfactors associated with disease-related gene expression data[J].BMC Medical Genomics, 2010, 3:17.

[4]BORMEFOI H, POTTI A, DELORENZI M.Validation ofgene signatures that Predict the response of breast cancer toneoadjuvant chemotherapy:a substudy of the EORTC10994/BIG00-01 clinical trial[J].Laneet Oncol, 2007, 8 (12) :1071-1078.

[5]陈毅, 吴炅.全基因表达谱芯片用于筛选乳腺癌新辅助化疗疗效预测因子的研究[D].上海:复旦大学硕士学位论文, 2010.

上一篇:电力生产管理系统下一篇:图书管理现代化