基于内容个性化的网页信息抽取技术的研究㊣精品文档值得下载

《基于内容个性化的网页信息抽取技术的研究》修改意见稿

1、以下这些语句存在若干问题，包括语法错误、标点使用不当、语句不通畅及信息不完整——“.....即挖掘用户访问站点的存取方式。而挖掘的对象是服务器上的包括在内的日志文件记录。分析这些数据从而帮助理解用户访问的模式，然后对站点结构进行优化，以便对用户特征实现个性化的信息表达，从而实现有针对性的对特定用户投放广告。同时，对站点的页面集合及用户的访问模式聚类分析，还能发现些页面之间存在着针对同主题或同类用户的强关联关系。日志挖掘相对页面的原始数据，是用户在与互联网交互时抽取的第二手数据，这些数据包括代理服务器的日志文件服务器的访问记录用户注册信息浏览器日志记录等。当前研究较多的是对服务器日志的挖掘，用户浏览服务器时，服务器会为其保留访问日志，包括三种类型日志，这些日志记录用户交互和访问的信息。日志挖掘主基于内容个性化的网页信息抽取技术研究要是对这三种日志文件挖掘，从而获取相似用户群体用户的访问模式频繁路径等知识......”。

2、以下这些语句存在多处问题，具体涉及到语法误用、标点符号运用不当、句子表达不流畅以及信息表述不全面——“.....树中的每个结点包含对标记间的所有字符,结点的名字则为对应的标记名字。基于内容个性化的网页信息抽取技术研究网页模板的生成文档对象模型是制定的标准接口规范，它提供访问页面中各个元素属性与方法的接口，每个网页都可以对应个树,通过对树的遍历,能够对页面中每个元素进行处理，树中每个结点都是个对象，利用对象的方法及属性，能够方便地修改添加和删除树中的结点和内容。图为树匹配的过程。图树匹配过程第四章基于挖掘的网页信息抽取技术本文在进行节点比较时，如果两个节点的标签和属性相同，则视为结构相同的节点。对于树和树，通过简单树匹配算法先比较它们的根节点，若根节点不同，那么两棵树根本不匹配，就不需往下比较。这里树和树的根节点相同，那么继续往下层比较，先比较第个孩子节点,相同，再往下,节点相同，则这两个节点保留为模板中的节点再比较根节点的第二个孩子节点,相同，它的孩子节点,也相同......”。

3、以下这些语句在语言表达上出现了多方面的问题，包括语法错误、标点符号使用不规范、句子结构不够流畅，以及内容阐述不够详尽和全面——“.....因此，该方法可能会漏掉部分正文信息。通过分析我们会发现，已有的方法有许多不足之处。有的网页正文可能带有超链接，现有方法会把超链接当作噪音信息有的网页正文可能不只处于个网页分块中，现有方法则只抽取出其中个正文块有的方法甚至会抽取错位，导致效果不理想等等。以往对结构复杂的网页，如标签嵌套复杂的情况，许多方法不能准确抽取出正文。目前的许多方法经常使用特定标签如来定位正文内容所在区块，但是，互联网上还有许多网页并没有用结构存放正文信息，对这种情况，使用基于特定标签的方法也不好。针对以上抽取方法的不足，本文提出种新的正文抽取思路，综合各类方法的优点，并进行了改进。新方法依据现有网页多使用模板生成的特点，通过对网页结构修剪和内容特征发现，生成网页模板，然后再提取正文内容。基于的网页信息抽取方法的改进本文提出了种基于结构的网页信息抽取方法，先生成解析树......”。

4、以下这些语句该文档存在较明显的语言表达瑕疵，包括语法错误、标点符号使用不规范，句子结构不够顺畅，以及信息传达不充分，需要综合性的修订与完善——“.....从而实现有效的抽取网页中的数据框架图是网页信息抽取的系统文档网页正文信息解析器剪枝器过滤器语义分析器图网页信息抽取的系统框架在流程上，本算法分为获取相似页面网页预处理网页模板生成构造正文特征向量正文抽取五个主要步骤，具体的流程图见图第四章基于挖掘的网页信息抽取技术获取基于结构的比较获取相似页面去掉无用标签，过滤噪音信息规范化页面树形化页面树匹配生成网页模板抽取网页正文图网页正文抽取流程图获取相似页面网页信息抽取中的相似页面是指语义和结构都相似的页面，不管是作为样本网页还是待抽取对象，相似页面在网页信息抽取中都起着非常重要的作用。因此我们采用基于比较法和简单树匹配法相结合来获取相似页面。网页预处理在获取相似页面后就可以对网页进行预处理。网页预处理是为删除网页中的无用信息，然后将网页转化成符合标准的文档。目前有些对页面文档进行规范化组织的工具，如等，效果还不错......”。

5、以下这些语句存在多种问题，包括语法错误、不规范的标点符号使用、句子结构不够清晰流畅，以及信息传达不够完整详尽——“.....数据预处理阶段是把原始的日志文件筛选过滤重组，再转变成适合挖掘的数据格式存储在数据库中，方便后续挖掘的使用。依据挖掘任务的不同采用不同的挖掘算法，在预处理阶段的用户会话中找到用户浏览模式，该模式主要有用户聚类序列模式关联规则等。模式分析主要是过滤掉有偏差和无利用价值的模式。可视化阶段把有价值的用户浏览模式用曲线图趋势图表格等形式表现出来。表列出了挖掘的分类与主要区别表挖掘的分类与区别内容挖掘资源查找方法数据库方法结构挖掘日志挖掘处理数据类型无结构化数据半结构化数据半结构化数据结构挖掘主要数据自由化文本标记的超标记的文档内及文文本词集段落概念......”。

6、以下这些语句存在多方面的问题亟需改进，具体而言：标点符号运用不当，句子结构条理性不足导致流畅度欠佳，存在语法误用情况，且在内容表述上缺乏完整性。——“.....相同，节点的两个孩子节点及属性都相同，则都保留为模板中的节点节点的第二个孩子节点,不同，不会是模板节点节点的第三个孩子节点,相同，继续比较它的孩子节点，树中的节点有孩子节点，而树中没有该节点，因此该节点不作为模板节点继续比较的第二个孩子节点,相同，它的孩子节点及属性都相同，保留为模板节点。这样就得到了网页模板。目标网页中除去与模板致的节点外，其余的子树都是正文候选子树。构造正文特征向量通过观察发现，网页正文文本的文字数量般情况下都比较多，以便用来表达网页的主题信息，这里我们构造个正文特征向量，用来表示节点内容成为正文的可能性通过实验比较，我们设定阈值，当特征向量超过阈值时，我们就认为该节点内容为正文信息，否则按噪音信息处理。网页正文的抽取般情况下，个网站会包括几个固定的模板，所以对每个网站生成网页模板后，用目标网页和模板进行比较，过滤掉网页中的噪音部分......”。

7、以下这些语句存在标点错误、句法不清、语法失误和内容缺失等问题，需改进——“.....标签窗主要指网页中出现在之后并且内容非空的标签对。这种方法主要依赖于网页中各级标题的内容对信息取舍，但若不能正确提取网页的标题则无法实现，而且还要对所有标签对的内容做相似性计算，计算量非常大。这种方法的优点是能够识别相关性较高的文档正文嵌套表格的文档及内容少周围无关文字多的情况。基于统计的方法基于统计的网页正文抽取方法具有普遍性，因为这种方法不用样本学习，能够提高正文的抽取速度。孙承杰等人提出种基于统计的方法来实现中文新闻类网页内容抽取。这种方法中默认正文信息都处于节点中，先把网页表示成棵树，除去噪音信息后对每个节点进行处理，去掉标签后得到没有标签的字符串，再比较每个节点的中文字符数量，般中文字符数量最大的是包含正文的节点。这种方法实现简单，但只适用于网页中的正文信息都在个中的中文新闻类网页信息的抽取，而对正文较短的网页，抽取效果不好。在文献里......”。

8、以下文段存在较多缺陷，具体而言：语法误用情况较多，标点符号使用不规范，影响文本断句理解；句子结构与表达缺乏流畅性，阅读体验受影响——“.....先分析待抽取文档类型信息组织方式结构特征及噪音信息分布规律，然后对不同格式文档进行处理。目前常用的网页信息抽取技术主要有基于结构基于标签窗基于统计基于网页分块等方法。本节对各类已有的方法做些归纳。基于的方法第四章基于挖掘的网页信息抽取技术因为的标签具有嵌套特性，可以用树来表示文件的内部结构。基于方法的过程是先把文档中具有特定意义的标签找出来，用标签项把文档表示成树结构，再根据这些标签将有效的数据节点提取出来。基于的方法属于自动训练的方法，是目前发展最好研究最多的信息抽取技术。基于标签窗的方法基于标签窗的方法能够处理网页正文在多个中的情况，相对目前许多方法只能处理正文信息在个中的情况有了很大的改进，而且这种方法还解决了非结构网页正文提取的问题......”。

9、以下这些语句存在多方面瑕疵，具体表现在：语法结构错误频现，标点符号运用失当，句子表达欠流畅，以及信息阐述不够周全，影响了整体的可读性和准确性——“.....他们通过广告服务器黑名单来执行广告内容的移除工作，通过链接单词数量和非链接单词数量的比例确定链接列表然后把它移除。这是种采用逆向思维的方法，去掉噪音信息后，剩下的就是正文内容。但这种移除规则有可能会把大量有用的信息移除掉。基于网页分块的方法早期人们利用标签的分布规律或标签间的关系对网页进行分块。后来利用标签之间的关系对网页分块，在标签中，标签有着良好的布局特性，许多格式复杂的页面都会采用标签来进行布局。等人提出种基于标签网页内容发现的方法。即找出所有标签及所含内容，把每个块看作个内容块，再通过计算块内关键字的墒值确定每个内容块的嫡值，这个嫡值指出现在整个网页簇中的特征词的权重。实验证明这种方法的召回率和准确率都较高。但是，这种方法局限于文字内容较基于内容个性化的网页信息抽取技术研究集中的网页，而且，实际情况的网页样式结构和标签的嵌套关系也很复杂......”。