帮帮文库

返回

(终稿)毕业论文设计_汉语股市公告信息抽取系统的设计与实现1.doc(最终版) (终稿)毕业论文设计_汉语股市公告信息抽取系统的设计与实现1.doc(最终版)

格式:word 上传:2025-08-21 03:28:12
新闻,涉及英语和日语文档。所抽取的信息包括合资企业的合资者合资公司的名称所有权和资本以及预期的活动,或者微电子芯片的制作活动的性质和状态等有关项。涉及到多语言和多领域的文档,以便进行抽取信息的性能评价比较。年的的信息抽取任务第次涉及到用语言所标记的文本中的名称项和指同项的处理。除了场景模板任务以外,名称项指同项和模板元素信息抽取任务均与特定专业领域无关。测试的语料采用华尔街杂志中的文本。年的是最近的次信息理解会议。它的信息抽取任务涉及抽取文档中的名称项人名组织名和地点名指同项确定模板元素之间的关系,如地点关系雇佣关系和生产关系等抽取文档中的事件。文档包含多语种的新闻稿。训练用的文档专业领域是关于飞机坠毁报道,而测试用的文档专业领域是关于发射事件报道。系统系统是美国加里福尼亚斯坦福研究所人工智能中心从年开始开发的个基于多层非确定有限状态自动机模型的自然语言文本信息抽取系统。它共有六层转换机制,即切分标记层预处理层名称项识别层简单短语识别层复杂短语识别层指同求解层。分解的语言处理使此系统能够处理大量的与专业领域无关的句法结构,以致于与专业领域相关的语义和语用处理能被应用到相当大部分的语言结构上。正因为系统具有这样的特点,它已被成功地运用于许多应用中。计划由美国国防部和共同资助的计划包括至少个与工业和学术有关的项目。目的是改进文本处理的流行技术。的体系结构使用组通用的文本处理模块已能满足不同的文本处理应用的胡睿已毕业,房飞,李雪蕾,孔祥勇,他们都曾帮助过我。同时感谢与我同进行毕业设计的本科生同学,郑宇宏,周轶璐,宿季魁,陈波,傅力波。正是大家的共同努力激烈研讨,才使研究有所成果。最后,我将我的这篇论文献给我的母亲。十年来,她独自人抚养我长大,其中艰辛自不用说。希望能够以此文回报她的养育之恩。申请上海交通大学学士学位论文汉语股市公告信息抽取系统的设计与实现学生学号专业导师学校代码上海交通大学网络教育学院二四年十月摘要本文介绍了个基于中文信息抽取模型的股市公告信息抽取系统的设计与实现。介绍了该系统的结构框架和分布图。讨论了汉语信息抽取模型的具体结构,构建了由自动分词自动标注和模板填充三个阶段组成的简化模型。简单介绍了自动分词的常用算法和自动标注中的标注规范。重点探讨了模板填充的具体算法。文中分别讨论了采用基于规则的结构主义方法和基于语料库概率统计的功能主义方法。着重讨论了采用隐马尔科夫模型进行信息抽取的具体算法。对模型的参数获取算法作了讨论,改进了算法以适应信息抽取的应用。对领域文本做了人工标注,通过计算机处理获取所需的统计数据。利用统计数据完善模型。关键词信息抽取,隐马尔科夫模型,自然语言的关键活动。而其中,信息的获取是三个步骤的开端,在信息技术领域中具有尤其重要的地位。近年来,随着计算机和互联网技术的迅猛发展,各领域可及信息量呈指数级增长。如何高效获取有用信息成为有效利用信息的关键。信息抽取,简称技术,是自然语言处理领域中种新兴的技术。该技术通过抽取过滤无关信息,使文本信息以用户关心的形式得以再组织,实现高效重组。将结构松散的自然语言信息,通过抽取转为结构严谨语义明确的表现形式,利用计算机进行高效存储并加以利用。信息抽取技术的发展信息抽取技术的雏形最早出现在二十年前。下面介绍些信息抽取发展上重要的研究成果以及国内外的研究现状。系统系统是早在年由研究出来关于动植物正规结构描述数据库的系统及其商用化产品。该系统采用了概念句子分析技术,通过些简单的语言处理技术能够完成限制在小规模,特定专业领域的信息抽取任务。系统系统由在年代初实现。该系统把有限新闻网络作为数据源,使用些新闻故事的简单脚本来对有限新闻网络进行监控。它采用关键字检索概念句子分析脚本匹配等方法来寻找新闻故事。系统是个面向语义的系统,采用了个特定专业领域的事件描述脚本知识库。系统年代末,美国研究与开发中心的等研制的,系统所处理的对象是有关公司合并的新闻报导。首先采用关键词过滤和模式匹配的方法对待处理文献进行主题分析,以便判定该报道的内容是否与公司合并有关然后采用自底向上的分析器识别句子结构,生成概念表示最后应用自顶向下的预期驱动分析器提取预期内容。是个资助的为推动技术发展的个重要的系列工程。有许多大学研究所参加。年的和年的主要集中在从小规模的海军信息文本中抽取相关的信息。年的和年的采用的文本主题和类型发生了变化,采用关于拉丁美洲国家恐怖事件通用主题的报目录概述信息抽取技术信息抽取技术的发展信息抽取技术的特点股市公告信息抽取系统应用背景系统框架结构系统分布结构本文内容简介信息抽取模块的设计模块内部结构串行化的模块内部结构及其问题简化的高性能信息抽取模型自动分词词类自动标注信息抽取的关键算法传统语言学方法基于规则的信息抽取算法基于规则信息抽取面临的严峻问题统计学方法基于语料库的统计语言学方法隐马尔科夫模型简介隐马尔科夫模型在信息抽取上的应用隐马尔科夫模型的训练与优化问题实现与结果分析模块实现情况两种信息抽取方法的比较结果总结遗留的问题参考文献致谢概述信息抽取技术信息技术高速发展的时代中,信息的获取处理和应用已经成为了经济科学军事文化等各个领域发展告董事会监事会董监事会公告董事董监事监事股东大会总共语料数量篇表四决议公告语料分析部分结果关键词出现次数平均单篇出现率财务指标每股净资产净资产收益率每股收益调整后每股净资产每股净资产每股收益单位基金收益单位基金资产净值期末基金资产净值基金资产净值收益率期末基金资产总值单位基金净收益单位基金净资产总共语料数量篇表五财务指数公告语料分析部分结果两种信息抽取方法的比较在本模块的设计和实现中,前后采用了基于规则的结构主义方法和基于语料库统计的功能主义方法。两种方法的异同及优缺点比较如下基于规则的结构主义方法基于语料库统计的功能主义方法抽取规则是人为总结制定的,故抽取效果很大部分取决于规则的完善性与合理性。抽取规则隐含于的模型参数中,通过语料库训练模型的而得,故抽取效果主要取决于语料库的文本容量和标注质量。对于简单文本分析效率高准确率高。对于简单文本分析效率和准确率都相对较低。分析能力相当有限,且扩充性差,难以分析复杂文本,准确率也随文本复杂性增加而显著下降。具有较强的可扩充性,只要训练获取合适的模型参数,即可对更复杂的文本类型进行抽取,而准确率仍有定的保障。旦确定规则,即可采用自动语法分析器生成器如或自动构造分析器。需要大量训练才能获取模型参数,且不能保证获取最佳值,必要时需要人工调整。表六两种信息抽取方法的比较可见,两种方法在不同的应用环境下具有不同的优缺点。所以应该根据需要选择合适的方法。近期其它些研究中,已经考虑将两种方法有机地结合,使它们互补短长,发挥各自最佳的分析优势。这也是计算语言学发展的必然趋势,结构主义和功能主义必将走向统。结果总结在基于汉语信息抽取模型的股市公告信息抽取系统的设计与实现中,已获得的成果罗列如下提出了基于汉语信息抽取模型的股市公告信息抽取系统的框架结构和分布图。分析了简化信息抽取模型的必要性,给出了简化后的信息抽取模型。简单讨论了小领域分词子模块的设计原则。对大量领域文本做了人工标注,初步够建了领域语料库。尝试了采用基于规则的简单文本信息抽取算法。提出了基于隐马尔科夫模型的信息抽取算法。改进了选择模型参数的迭代算法。分析了两种信息抽取方法的异同及优缺点遗留的问题目前为止,本信息抽取系统的设计与实现过程中,发现了,张冬茉,王纤,基于的信息抽取模型的研究,上海交通大学,姚天顺,自然语言理解,清华大学出版社,蔡自兴,徐光祐,人工智能及其应用第二版,清华大学出版社,于江生,隐模型及其在自然语言处理中的应用,北京大学计算语言学研究所于江生,计算语言学中的概率统计方法,北京大学计算语言学研究所于江生,基于约束的句法语义分析,北京大学计算语言学研究所胡睿,基于的信息抽取模型的研究和实现,上海交通大学计算机系,孙宾,现代汉语文本的词语切分技术,北京大学计算语言学研究所孙宾北京大学计算语言学研究所,孙宾,汉语信息提取的部分研究,北京大学计算语言学研究所姚天昉等,种基于信息抽取和文本生成的多语种信息检索模型,上海交通大学计算机科学与工程系,德国人工智能研究中心致谢在本文即将结束之际,我要由衷地感谢在我毕业设计阶段,乃至本科四年学习生活中帮助过我的师长与同学。我要首先感谢我的导师教授。在整整年的学习科研中,老师给予了我极大的关心和帮助。张老师治学严谨知识渊博诲人不倦,在学术和为人上都为我作出了榜样。在张老师的帮助下,使我的课题研究能够顺利开展,并取得定阶段性成果。在此,我向她表示最真挚的感谢。我还要感谢老师。在年的研究与实践中,老师为课题的顺利进行作出很多贡献。尤其在安排语料库构造的工作中,王老师作出很多贡献。本项目是国家自然科学基金项目,在此我要特别感谢项目负责人盛焕烨副校长,感谢他给予过我的帮助。我还要感谢本实验室的几位研究生同学,他们是以下些问题,有待解决多语种的问题。本系统目前为止仍然是基于汉语信息抽取技术的。但是根据信息抽取技术的特征,构建跨语种的信息抽取系统是可能的。可以构建中间语汇,将抽取后的信息以独立于语种的方式表述。具体研究仍有待于进步的讨论。自动分词的完善。目前的自动分词词典结构仍然相当简单,可以通过添加
下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(1)
1 页 / 共 29
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(2)
2 页 / 共 29
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(3)
3 页 / 共 29
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(4)
4 页 / 共 29
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(5)
5 页 / 共 29
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(6)
6 页 / 共 29
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(7)
7 页 / 共 29
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(8)
8 页 / 共 29
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(9)
9 页 / 共 29
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(10)
10 页 / 共 29
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(11)
11 页 / 共 29
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(12)
12 页 / 共 29
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(13)
13 页 / 共 29
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(14)
14 页 / 共 29
毕业论文:汉语股市公告信息抽取系统的设计与实现1.doc预览图(15)
15 页 / 共 29
预览结束,还剩 14 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档