帮帮文库

返回

【毕业论文】基于web的信息检索系统的设计与开发word文档(定稿) 【毕业论文】基于web的信息检索系统的设计与开发word文档(定稿)

格式:word 上传:2026-01-15 08:32:16
组织,提供对文献标识快速查找,并与提问标识加以比较,据此做出文献是否与提问相符判断。这个标识比较过程,也称为检索匹配。信息检索信息检索工作内容,主要是由检索人员接受用户检索提问,对提问进行细致主题分析,提信息资源信息选择收集主题概念分析信息标引信息用户信息需求主题概念分析检索提问检索结果信息检索系统检索标引语言炼出检索主题概念,并编制出相应检索策略。其工作饥饿,其原因是当前检索着重与检索文档中存储字词,检索系统返回太多结果以至于用户无法逐个浏览,而其检索准确率很低,不能满足用户需求。尤其不能对泛概念不确定概念进行有效检索。信息检索需要不确定性推理当今自然语言处理遇到最大困难就是概念具有模糊性随机性和近似性,他们都会引起推理不确定性和演化。概念作为外部事物在主观认知中对应物成为思维活动基本单元,他不是孤立,是同外部背景有各种联系,是演变和流动过程。最近几年中多种逻辑和不确定理论被提出,最典型是基于模糊集合论虽然模糊集合论对不确定性和随机性处理有不同成都进步,但均没有取得可喜效果,源影视模糊集合论理论有许多不彻底性首先,作为模糊集合论理论基石隶属函数概念实质以及具体确定方法没有谁清楚其次,隶属函数旦通过认为假定硬化成精确数值表达后,就不再有丝毫模糊性了。针对这个问题,在传统模糊集合理论和概率统计基础上李德毅院士提出了云模型,云模型是自然语言不确定性,尤其是模糊性和随机性处理模型即定性与定量之间转换模型。适应个性化信息检索需求在张扬个性倡导创造性现代信息社会里,个性化服务更是备受人们关注和青睐。个性化信息这个概念可以从两个两个角度分析第,个性化信息是值反映人类个体特性切信息,这些信息包括了这个个体些属性描述第二,个性化信息是指由人类个体特性所决定其对信息需求种信息组合。以用户为中心信息检索,主要是研究用户行为,理解他们主要需求,根据这些需求改进和完善检索系统组织和操作,向用户主动及时准确提供所需信息。另外,数据挖掘技术为信息检索提供理论基础。为检索评价提供新方法从大量数据集中检索出信息,需要有效方法和工具,因此,检索评价研究是十分必要,新理论发展对检索评价研究提供了基础。检索性能评价可以使检索工具开发商使用最好检索策略,为用户提供更好检索工。基于语义信息检索传统信息检索方法分为两大类是基于关键词匹配地方法,这种方法首先让用户以关键词形式提出检索请求,然后将用户提交关键词与文档库中文档进行匹配,最后将那些出现了用户所提交关键词文档作为检索结果返回给用户。第二类方法称为概念信息检索,它通过对文档中信息进行语义层次上处理来析取各种概念信息,并由此形成个概念库,然后根据对用户问题理解来检索概念库中相关信息以提供检索结果。这种方法克服了基于关键词检索中不考虑语义信息局限性,并且具有较好自然语言接口。但是感念信息检索检索个不足之处就是其概念库中不包含概念之间关系描述因此无法处理有关感念关系问题。因此,使用传统搜索引擎,其检索效果远远不能令人满意。这主要表现在第是对用户问题理解不够准确,导致返回结果中有很多噪声,用户不能直接找到自己所需信息第二是对信息内容处理大多采用是基于种编码过程预处理技术或种全文分析技术,仅仅反映个问题侧面第三是用户提出问题与信息源内容不可能完全致,难以保证内容与用户问题相匹配正确率很低三信息检索原理与技术方法信息检索原理广义地讲,信息检索包含信息储存和信息检索两个过程。信息储存是对文献进行收集标引及著录,并加以有序化编排,编制信息检索工具过程信息检索是从大量信息中查找出用户所需特定信息过程。而实施检索主要方法就是利用各种检索工具见图。信息存储过程信息检索过程图信息检索原理信息储存信息储存工作内容,主要是由标引人员通过对原始文献阅读分析,对文献中信息进行鉴别提炼和浓缩,并采用特定方式予以整理保存起来。它大致有如下几个步骤选择文献。根据信息检索系统主题性质及任务等,结合原始文献本身研究水平角度及其信息质量,对原始文献进行适当评价,从中筛选出符合要求文献。文献概念分析。对所选文献进行仔细主题分析,提炼出文献所论述内容主题,归纳为代表文献内容若干主题概念,并确定这些主题概念之间关系。词汇转换。把文献主题概念转换为适当文献标识或标引词,并以这此标识来表达文献主题内容。这种转换需要严谨地建立在两个依据之上是必须以对文献主题概念分析为依据,二是必须以信息检索语言为依据。前者主要决定转换什么问题,即需要对文献中哪些信息主题做出转换后者主要决定怎样转换问题,即把主题概念转换为哪些标识。信息检索工具编制。概括地讲,检索工具是信息检索系统核心和概括,它主要包括两个有序化序列,即文献序列和文献标识序列。文献序列是由文献描述体或文献本身按照定方式组织形成有序化序列,构成文献库。文献描述体是对原始文献内容浓缩,常见有文摘题录等,这是信息检索所采用传统和主要方式。其主要作用是,使用户能够对文献内容有较为全面和准确了解,进而做出是否需要获取原始文献选择。随着计算机技术和通信技术发展,现在已经有越来越多信息检索系统采用全文本方式,直接把原始文献本身组织为有序化序列,尤其是因特网迅猛发展,为全文本检索拓展了更大发展空间。文献标识序列,是由文献标识按照特定顺序形成有序化序列,构成文献库索引。最常见排列方式为字顺,即按照字母顺序或汉语拼音,排列为文献标识序列。其作用主要是依靠字顺组织,提供对文献标识快速查找,并与提问标识加以比较,据此做出文献是否与提问相符判断。这个标识比较过程,也称为检索匹配。信息检索信息检索工作内容,主要是由检索人员接受用户检索提问,对提问进行细致主题分析,提信息资源信息选择收集主题概念分析信息标引信息用户信息需求主题概念分析检索提问检索结果信息检索系统检索标引语言炼出检索主题概念,并编制出相应检索策略。其工作机架相比,它有个刀片插槽刀片服务器。它也有多达两个管理单元,个交换机模块,四桥模块和四个高速交换机模块空间。在机架上交换机模块与和桥梁模块与均共享相同插槽。我们在每个机架配备两个以太网交换机模块和个光纤通道交换机模块。三种不同叶片中使用了我们集群处理器,英特尔处理器和处理器。每个刀片或既有本地磁盘驱动器容量也有双光纤通道网络适配器。在光纤通道适配器,两个用于连接刀片光纤通道交换机,都被插入机架。大约半集群底盘组成刀片。这是四处理器双插槽,双核心片,运行在。每个刀片有内存。在本文中结论报告中,我们着重关注这些刀片。存储子系统包括双存储控制器,每个都配有光纤通道接口,并且在主要抽屉中容纳了个驱动器。尽管每个是搭配个专门机架,但由于我们运行光纤通道网络,集群中任何刀片都可以可以查看到存储系统每个逻辑单元。工作量是种执行搜索应用框架。这是基于非结构化数据网页搜索应用程序日益增多表现。我们已经习惯了谷歌和雅虎这样开放互联网运作搜索引擎。然而,搜索也是公司局域网内部网络个重要运作。完全是基于和其代码开源性。,作为个典型搜寻工作,有三个主要部分组成检索,索引,和查询。在本文中,我们列出查询结果组成部分。为了完整性,我们简要介绍了其他组成部分。抓取操作是浏览和检索信息网页,然后输入将要搜索文本信息。这套文件在搜索术语称为语料库。爬行可以同时在内部网络内联网以及外部网络因特网内执行。检索,尤其是在互联网,是个复杂工作。无论是有意还是无意,总有许多网站难以检索到。检索性能通常是被检索系统和被检索系统之间网络带宽给制约着。在搜索框架包含个使用编程模型并行索引操作书面。提供了个方便方式处理个重要尽管有限类,通过程序员在现实生活中商业应用并行和容错性问题让他们关注问题域。在年出版了谷歌网站,并迅速成为这类工作量分析标准。模式并行索引操作如下。首先,将要建立数据分割成大致相同大小部分。每部分,按照既定方式进行处理,生成键,值,其中是查询索引关键字,是包含关键字整套文档和储存关键字文档。这相当于在地图阶段,用。在下阶段,在减少阶段,每个减速任务收集所有对特定关键字,从而产生个单指数表关键字。当所有按键都处理后,我们有完整关键字集作为整个数据集。在大多数搜索应用程序中,查询绝大多数代表着运算能力。执行查询功能时候,索引格式被提交给搜索引擎,然后检索文件,得到最符合要求结果。并行查询引擎总体结构如图所示。查询引擎部分包含个或多个前台,个或多个后台。每个后台都包含该分类完整数据集。驱动作为外围用户代表也是衡量查询性能个关键点,每秒查询。查询操作方式如下驱动程序提交特定查询索引格式任意个前台。前台紧接着分派查询任务给所有后台。每个后台负责执行对数据段查询并返回最符合查询要求结果文件列表通常是个。每个文件返回个百分数值,以此量化查询匹配度。前台收集所有后台回复两端产生个单顶端文件列表通常是条最佳匹配结果。旦前台产生了该列表,它会练习后台根据索引目录检索文章片段。只有顶端文件片段会被检索。前台次只能与个后台建立联系,从后台数据段对应文档中回复片段。总结我们工作第个结论是,相对于向上扩展来说,向外扩展解决方案在检索工作量方面毋庸置疑有着很高性价比优势。高度并行性工作量,再加上在处理器网络和存储可扩展性方面可预测性,使得向外扩展成为搜索方面完美候选。此外,即使在向上扩展系统中,在处理器利用效率方面采取在单位空间内向外扩展方法比单纯向上扩展效果要好多。这与目前已有大型共享存储系统科技计算已经没有太大差别。这些机器中,在机器中运行向外扩展应用往往比依赖于共享内存向上扩展编程更加有效。向外扩展系统在系统管理方面仍然不如向上扩展。使用传统管理观念消耗镜像成本成比例增加,很明显,向外扩展解决方案比向上扩展要耗费更高管理成本。饥饿,其原因是当前检索着重与检索文档中存储字词,检索系统返回太多结果
下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(1)
1 页 / 共 43
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(2)
2 页 / 共 43
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(3)
3 页 / 共 43
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(4)
4 页 / 共 43
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(5)
5 页 / 共 43
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(6)
6 页 / 共 43
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(7)
7 页 / 共 43
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(8)
8 页 / 共 43
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(9)
9 页 / 共 43
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(10)
10 页 / 共 43
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(11)
11 页 / 共 43
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(12)
12 页 / 共 43
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(13)
13 页 / 共 43
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(14)
14 页 / 共 43
【毕业论文】基于web的信息检索系统的设计与开发.doc预览图(15)
15 页 / 共 43
预览结束,还剩 28 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档