帮帮文库

返回

基于语料库的工作 基于语料库的工作

格式:PPT 上传:2022-06-25 15:57:21

《基于语料库的工作》修改意见稿

1、“.....•.•中文信息处理基于语料库的工作语法标注•••多种标注集,,•标注集的设计标注集的特征•,中文..•息处理基于语料库的工作标注集•••,•,••,••,••••.,•中文信息处理基于语料库的工作标注集•.,.,•中文信息处理基于语料库的工作其它语言的标注集•息处理基于语料库的工作标记化什么是个词•相同形式表示不同的“词语”工具的过去时中文信息处理基于语料库的工作标记化什么是个词•其它语言中的分词中文日文泰文•严守把手机关上严守把手机关上德语中大多数的词语有空格分割,但是复合名词写成单独的词•人身保险公司的雇员中文信息处理基于语料库的工作标记化什么是个词•非词语分界的空格,......”

2、“.....问题就更加复杂了•习惯搭配形成的词•.中文信息处理基于语料库的工作标记化什么是个词电话号码国家电话号码国家.到引号后面如果在句点之前是个不纵出现在句子末尾的众所周知的缩写形式,而且通常后面会跟个大写的名字,例如.如果句点前面是个众所周知的缩写形式,但是句点后面没有大写词。这样即可正确地处理像.这样的大多数缩写用法,这些缩写般出现在句子的中间或者末尾•如果下面的条件成立,则删除或者!的边界资格这些符号后面跟着个小写字母或者个已知的名字•认为其它假设边界就是句子的边界中文信息处理基于语料库的工作自适应的句子边界检测•.•.,......”

3、“.....在此之上,如果增加些信息,那么会得到更多的东西句子的边界,段落的边界,句法结构语义表达语义类别•不同的标注方案文本的头信息,例如作者时间日期题目等使用尖括号,第个字母表示个域的主要语义通用标记语言中文信息处理基于语料库的工作例子•.,中文信息处理基于语料库的工作词法•词干化去除词缀只留词干的过程,•词干化的优点对词的各种变化形式进行归类,减少了词的数目意味着定水平上的词义消歧•,卧倒,欺骗中文信息处理基于语料库的工作词法•词干化中的问题词干化会浪费些信息••词法分析把词切分成词次......”

4、“.....依法服兵役的义务保卫社会主义建设,战斗在祖国边疆及各个岗位上英语中只有很少的词态,所以对其进行词态处理不是很有必要。而其它语言中,进行词态处理可能会有很大的意义•芬兰语,每个动词有百万种变化形式中文信息处理基于语料库的工作句子•句子以个“。”“,”“!”或者结尾的内容。的情况都是这样句子可能会被其它的分隔符号切分开句子的顺序可能会被打乱•“,”,“!”引号可能在句子的最后个标点的后面识别句子的边界,可以采用些启发式的方法,也有些学者尝试自动的方法来识别句子的边界。中文信息处理基于语料库的工作启发式的方法•在.!和可能的出现位置之后加个假设的句子边界•如果假设边界后面有引号......”

5、“.....把假设边界转料库就是指专门服务于个特定目的的语料库•单语种语料库多语种语料库中文信息处理基于语料库的工作语料库发展简史•第代年代•第二代年代•第三代年代中文信息处理基于语料库的工作第代语料库•语料库•语料库•语料库百万词级以语言研究为导向中文信息处理基于语料库的工作第二代语料库•语料库•语料库千万词级词典编纂应用导向中文信息处理基于语料库的工作第三代语料库•语料库•树库•超大规模上亿词级标准编码体系深度标注多语种应用中文信息处理基于语料库的工作语料库建设中处理的问题•文本生文本标注文本•语料库建设中处理的问题低级格式问题标记化什么是个词词法句子中文信息处理基于语料库的工作低级格式问题•......”

6、“.....语料库中可能存在无法处理的各种各样的格式或内容,他们是没有用处的,需要过滤掉。•文档页眉分隔符排版代码表和图表•如果数据来源于,会引入错误识别的问题中文信息处理基于语料库的工作低级格式问题•大小写•识别句子中人名的启发式方法把个句子开头的大写字母转换成小写字母把串连续大写的词当作标题和副标题这样,其余的大写字母就可以认为是名字中文信息处理基于语料库的工作标记化什么是个词•什么是词前后有空格的连续字母组成的字符串,可以包含连字符和省略号,但是不能包含其它的标点符号。.中文信息处理基于语料库的工作标记化什么是个词•句点大多数句点的作用是表明句子结束......”

7、“.....例如.,.。•保留句点的意义.•.出现在句子的末尾的时候,只保留个句点,这个句点同时表示两种意思。中文信息处理基于语料库的工作标记化什么是个词•单撇号,,•表示什么还是所有格形式•词末尾的单撇号如何处理通常代表对引号的结束,不是该词的部分如果它跟着个出现•中文信息处理基于语料库的工作标记化什么是个词•连字符不同形式表示相同形式的词带有连字符的串字母应该看成个词还是两个有时候是个,有时候是两个•个,来源于排版印刷找到行中最后的连字符,丢弃它,把本行的词和下行的连起来......”

8、“.....英文为•存储语言材料的仓库•现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本.中文信息处理基于语料库的工作关于语料库的三点基本认识•语料库中存放的是在语言的实际使用中真实出现过的语言材料•语料库是以电子计算机为载体承载语言知识的基础资源•真实语料需要经过加工分析和处理,才能成为有用的资源中文信息处理基于语料库的工作语料库示例北京大学计算语言所富士通人民日报标注语料库样例历史将铭记这个坐标北纬.度东经.度人们将铭记这时刻年月日时分......”

9、“.....并按照“国两制”“港人治港”高度自治的方针保持香港的繁荣稳定。中文信息处理基于语料库的工作语料库的分类•生语料库熟语料库生语料库就是未经加工的,没有任何切分,标注标记的原始语料库熟语料库就是指经过加工,带有切分,标注标记的语料库•系统型语料库专用型语料库系统型语料库就是依据事先确定的选材原则和比例选取语料的语料库专用型语料.•.•中文信息处理基于语料库的工作语法标注•••多种标注集,,•标注集的设计标注集的特征•,中文到引号后面如果在句点之前是个不纵出现在句子末尾的众所周知的缩写形式,而且通常后面会跟个大写的名字,例如.如果句点前面是个众所周知的缩写形式......”

下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
基于语料库的工作.ppt预览图(1)
1 页 / 共 32
基于语料库的工作.ppt预览图(2)
2 页 / 共 32
基于语料库的工作.ppt预览图(3)
3 页 / 共 32
基于语料库的工作.ppt预览图(4)
4 页 / 共 32
基于语料库的工作.ppt预览图(5)
5 页 / 共 32
基于语料库的工作.ppt预览图(6)
6 页 / 共 32
基于语料库的工作.ppt预览图(7)
7 页 / 共 32
基于语料库的工作.ppt预览图(8)
8 页 / 共 32
基于语料库的工作.ppt预览图(9)
9 页 / 共 32
基于语料库的工作.ppt预览图(10)
10 页 / 共 32
基于语料库的工作.ppt预览图(11)
11 页 / 共 32
基于语料库的工作.ppt预览图(12)
12 页 / 共 32
基于语料库的工作.ppt预览图(13)
13 页 / 共 32
基于语料库的工作.ppt预览图(14)
14 页 / 共 32
基于语料库的工作.ppt预览图(15)
15 页 / 共 32
预览结束,还剩 17 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为PPT文档,建议你点击PPT查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档