两部分组成预处理和模式匹配过程。
在预处理阶段,需根据模式串生成个与情况发生时,依照移动规则,此时移动距离为,而移动距离,的效率小于。
改进算法为进步提升算法的匹配效率,考虑到算法的不足,结合该算法的坏字符规则及其文献改进算法的优点,通过改进坏字符规则,并充分利用已匹配部分当前移动窗口末尾的字符下位字符与模式串首字符的独特性和组合性,本文提出了种基于算法的改进算法算法。
该算法通过对已匹配部分的最大移动距离与当前匹配窗口末尾的下位进行比较,选择两者之间移动距离大的,先进行预判断移动该距离后的窗口末算法和文献中的算法,在预处理阶段增加了个与位置相关的数组,数组长度为模式串长度,用于记录将每个字符作为坏字符作为参考值后该位置的最大右移值,因此在预处理阶段增加了额外的辅助空间。
在般的模式匹配中,由于模式串长度相对于文本长度可以忽略不计,因此增加的额外辅助空间可忽略不计。
算法在匹配时,利用坏字符表,经预判机制考查模式串最后位字符对应的文本串字符的更远的文本串字符,用以获得更大右移。
在匹配阶段,算法时间复杂度为,最好情况下,时间复杂探索高效的基因序列匹配算法生物工程论文。
改进算法为进步提升算法的匹配效率,考虑到算法的不足,结合该算法的坏字符规则及其文献改进算法的优点,通过改进坏字符规则,并充分利用已匹配部分当前移动窗口末尾的字符下位字符与模式串首字符的独特性和组合性,本文提出了种基于算法的改进算法算法。
该算法通过对已匹配部分的最大移动距离与当前匹配窗口末尾的下位进行比较,选择两者之间移动距离大的,先进行预判断移动该距离后的窗口末尾字符是否出现在模式串中,若未出现,则判断窗口下位字符是否与模式串首字符相等,若相等,则跳跃据坏字符表获取当前匹配窗口最后位的下位获取右移参考量,比较后取进行预判断,是否在模式串中出现,若出现则转,若未出现则考查其下个字符即,是否与模式串首字符匹配,若匹配,则右移若不匹配,则右移判断,是否与模式串在模式串最后位,若不是,则移动若是,则比较,是否与模式串首字符相匹配,若匹配,则移动若不匹配则转判断模式串尾字符是否只出现次,本思想算法思想为整体上按照顺序从左往右匹配窗口内从右往左的顺序进行匹配设当前匹配情况为与,当匹配过程中发生失配时即≠考虑已匹配成功部分的每位作为坏字符并采用坏字符规则计算移动距离参考量之间最大值与文本串字符的下位字符之间较大者为移动量,并根据移动量和坏字符表预判定移动后的字符的移动量,来获取更大的移动距离。
同时结合考虑首字符的唯性,计算得到最终移动距离。
通过预判机制和融合跳跃机制,可以有效地增加跳跃距离,并减少字符不必要的中间比较次数,摘要基因序列匹配是生物信息学中个重要的问题,基因序列在计算机处理中通常被看作是由有限的字符集组成的文本字符串,故可将基因序列匹配问题归结为字符串匹配问题。
本文在对传统的字符串匹配算法的分析的基础上,提出了种更为高效的基因序列匹配算法算法。
该算法充分利用已匹配部分的信息移动窗口末尾的字符下位字符与首字符的关系,并采取预判机制进行融合跳跃,最大移动步数可达到。
实验结果表明,改进后的算法有效提高了基因序列的匹配速度。
关键词算法单模式匹配基因序列匹配生物信息学生析可得,算法在实验中表现为字符串长度越长,其效果越好,性能越优。
结束语本文在针对已有的算法研究基础上,充分利用字符串已匹配成功部分的字符当前匹配窗口的末尾字符的下位字符以及首字符的独特性和组合性,提出了种改进的算法算法。
通过设计实验验证表明,该改进算法在算法的性能上有定的提升,虽然增加了字符的比较次数,但能有效加快基因序列的检测速度。
通过对美国国家生物技术信息中心基因库数据样本集的大量统计分析,基因序列的长度多数范围在,因此改进后的算法对于长序列进的基因序列匹配算法网络新媒体技术,赵晓,何立风,王鑫等种高效的模式串匹配算法陕西科技大学学报自然科学版,苏珉基于入侵检测的模式匹配算法改进川兵工学报,未来,张启辉种基于改进的基因序列匹配算法网络新媒体技术,基金国家重点研发计划国家自然科学基金项目川省重点研发项目。
文献根据算法利用已匹配成功的部分的每个字符均采用坏字符策略以得到多个不同的右移距离作为参考量,选取者之间的较大的值作为匹配窗口的最终右移量。
该算法定程度上提升了模式串匹配的效率过程。
由图可以看出,耗时方面算法有较为明显的降低。
在比较次数上,算法比算法增加,较算法增加,较文献算法增加在跳跃次数上,算法比算法降低,较算法降低,较文献算法降低在时间性能上,算法比算法提升,较算法提升,较文献算法提升。
综上分析可得,算法在实验中表现为字符串长度越长,其效果越好,性能越优。
结束语本文在针对已有的算法研究基础上,充分利用字符串已匹配成功部分的字符当前匹配窗口的末尾字符的下位字法单模式匹配基因序列匹配生物信息学生物工程随着基因测序技术的快速发展,生物信息学面临着生物遗传信息基因数据海量增长的挑战。
计算机技术拥有对数据快速处理能力,作为辅助工具极大地提高了对复杂而庞大的生物数据的挖掘和分析能力。
腺嘌呤,鸟嘌呤,胞嘧啶,胸腺嘧啶,种类型的碱基随机排列,构成存储了大多数生物遗传信息的基因序列。
不同的排列组合方式代表具有不同结构和功能的蛋白酶。
在生物信息学的应用场景中,基因序列的匹配常被抽象为由字符集组合而探索高效的基因序列匹配算法生物工程论文匹配具有定的实用价值。
参考文献唐玉荣,种优化的生物序列比对算法计算机工程与设计计算机工程与设计,王艳霞,江艳霞单模式匹配算法的研究与改进计算机工程,徐龙,刘晓洁,岳未然种改进的基因序列匹配算法网络新媒体技术,赵晓,何立风,王鑫等种高效的模式串匹配算法陕西科技大学学报自然科学版,苏珉基于入侵检测的模式匹配算法改进川兵工学报,未来,张启辉种基于改进的基因序列匹配算法网络新媒体技术,基金国家重点研发计划国家自然科学基金项目川省重点研发项目献算法均有降低。
由图可以看出当算法在当模式串长度较短时,字符串比较次数相对于文献算法高,但当模式串较长时,字符串比较次数由于匹配策略而降低,减少了不必要的中间匹配过程。
由图可以看出,耗时方面算法有较为明显的降低。
在比较次数上,算法比算法增加,较算法增加,较文献算法增加在跳跃次数上,算法比算法降低,较算法降低,较文献算法降低在时间性能上,算法比算法提升,较算法提升,较文献算法提升。
综上分考查其下个字符即,是否与模式串首字符匹配,若匹配,则右移若不匹配,则右移判断,是否与模式串在模式串最后位,若不是,则移动若是,则比较,是否与模式串首字符相匹配,若匹配,则移动若不匹配则转判断模式串尾字符是否只出现次,若是则移动若不是则移动考查自右向左,模式串与文本串是否完全匹配或匹配是否已到文本串的末尾,若,但其最大移动距离为,效果并不显著。
问题提出算法特点文本串与模式串窗口对准位置采用自左向右推移的策略,而在每个窗口内部采用自右向左的方式进行字符的逐比对。
算法是种通过对算法进行改进优化的算法。
探索高效的基因序列匹配算法生物工程论文。
图为采用上述实验环境和实验数据进行实验,种算法字符串比较次数。
图为采用上述实验环境和实验数据进行实验,种算法耗时统计。
图模式串跳跃次数图字符串比较次数图耗时由图可以看出,算法的跳跃次数相较于文符以及首字符的独特性和组合性,提出了种改进的算法算法。
通过设计实验验证表明,该改进算法在算法的性能上有定的提升,虽然增加了字符的比较次数,但能有效加快基因序列的检测速度。
通过对美国国家生物技术信息中心基因库数据样本集的大量统计分析,基因序列的长度多数范围在,因此改进后的算法对于长序列匹配具有定的实用价值。
参考文献唐玉荣,种优化的生物序列比对算法计算机工程与设计计算机工程与设计,王艳霞,江艳霞单模式匹配算法的研究与改进计算机工程,徐龙,刘晓洁,岳未然种改成的定长度的字符串的匹配问题,。
探索高效的基因序列匹配算法生物工程论文。
图为采用上述实验环境和实验数据进行实验,种算法字符串比较次数。
图为采用上述实验环境和实验数据进行实验,种算法耗时统计。
图模式串跳跃次数图字符串比较次数图耗时由图可以看出,算法的跳跃次数相较于文献算法均有降低。
由图可以看出当算法在当模式串长度较短时,字符串比较次数相对于文献算法高,但当模式串较长时,字符串比较次数由于匹配策略而降低,减少了不必要的中间匹配匹配或已到末尾,则结束否则,转至。
摘要基因序列匹配是生物信息学中个重要的问题,基因序列在计算机处理中通常被看作是由有限的字符集组成的文本字符串,故可将基因序列匹配问题归结为字符串匹配问题。
本文在对传统的字符串匹配算法的分析的基础上,提出了种更为高效的基因序列匹配算法算法。
该算法充分利用已匹配部分的信息移动窗口末尾的字符下位字符与首字符的关系,并采取预判机制进行融合跳跃,最大移动步数可达到。
实验结果表明,改进后的算法有效提高了基因序列的匹配速度。
关键词算探索高效的基因序列匹配算法生物工程论文字符位置相关的数组和个坏字符数组。
数组通过将模式串中的每位作为坏字符,计算其移动量,从右往左进行移动量的比较,最后位右移量根据算法坏字符移动规则来进行计算。
若右侧移动量大于左侧,则左侧移动量赋予右侧移动量值。
在匹配阶段,当发生失配的情况按以下规则进行处理根据失配位置从获取右移参考量,根据坏字符表获取当前匹配窗口最后位的下位获取右移参考量,比较后取进行预判断,是否在模式串中出现,若出现则转,若未出现则尾字符是否出现在模式串中,若未出现
1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。