古籍汉字切分研究论文（最终版）㊣精品文档值得下载

络和图像熵的自动图像分割方法通信学报，，，，刘习文，蒋艳荣，罗显光种改进的图像模糊增强算法计算机工程与应用，刚，文件可以用这些艳色值来表示，次进行去噪，切分等操作，基于语言下的汉字切割实现古籍汉字的特点由右向左按列书写。

据这特点，进行列切分相对来说较容易，而因为上下两个字之间会存在交叉及连笔现象，并且由于古籍汉字左右间隔大，上下间隔小的特点，在进行行切分时，字的上下结构间的缝隙和字与字间的缝隙很难分辨清楚，所以行切分较为困难。

古籍汉字图像切割实现的困难性作为文物，大量原始典籍资料是很多研究者无法直接接触到的，仅凭整理后的字符资料进行研究又缺乏直观性，并且丧失了许多接触隐性资料的机会，图像资料可以定程度上弥补这缺陷。

但由于大量的古代典籍都是手写本，个性化强不规范，并且经常使用各种书写符号，采用图像处理的手段对有意义的单个字符进行分割处理，进步利用计算机进行自动半自动的文献校勘，这将为古籍整理提供广阔的天地。

将原典图片分割出的单字图片各个版本的录文校勘结果及众多研究者的成果采用数据库技术进行组织，不仅提供全文的检索，进步还可以通过建立个知识库，智能化地生成新的数据和进行多元的信息检索传统方法在古籍手写汉字图像分割中的局限性复杂性和模糊性是图像天生的特性，所以尚无通用的图像分割理论。

因此现已提出的图像分割算法大都是针对具体问题的，没有种适合于所有图像的通用的算法。

虽然有人试图对分割建立模型并根据模型进行分割，但并不太成功。

人们逐渐认识到现有的任何种单独的图像分割算法都难以对般图像取得令人满意的效果，因而很多人在把新方法和新概念不断的引入图像分割领域的同时，也更加重视把各种方法综合起来运用，特别是对于古籍手写汉字图像和彩色手写文本图像，单算法几乎无能为力。

由于古籍手写汉字图像具有以下的些特点，因此在进行分割时比较困难汉字类别多，字形结构复杂。

常用的汉字有多个，而康熙字典中包含了多个汉字。

汉字笔划变化多，笔划间的相互关系复杂，每个字的细节丰富。

汉字集合中相似字较多，有些汉字的差别仅为点或个笔画。

④汉字的不同字体及因不同人书写风格的差异造成手写汉字的变很大，具体表现有横不平，竖不直，直笔变弯，折笔的拐角变成圆弧等基本笔画变化，笔画模糊，不规范，该连的不连，不该连的却相连笔画与笔画之间部件与部件之间的位置发生变化笔画的倾斜角笔画的长短部件的大小发生变化。

古籍手写汉字由于不同人使用不同的书写笔可能造成笔画的粗细变化。

为了后续处理的需要，古籍汉字的分割不仅要求将汉字从背景中分离出来，还必须将其切分成个个独立的汉字。

传统方法在古籍手写汉字图像分割中的应用实例简单直方图分析法对幅图像，设其灰度范围为⋯，灰度层的像素数为，则此图像的总像素数Ⅳ可用下式进行统计灰度层出现的概率可用式进行计算通过灰度直方图可以直观地观察到灰度和像素数间的二维关系。

直方图是利用像素灰度作属性的分割方法的常用工具，幅图像上各灰度分布的统计特性能够在直方图上直观地反映出来。

对于事先已经知道目标面积比例的图像，可以使用方法进行门限分割。

方法的基本思路是对于幅由亮背景和黑前景组成的图像，如果在图像中已知目标所占的面积为，则所取的作为分割的门限值应当是使得至少的像素经门限化后转为目标的最高灰度值。

对于那些灰度直方图峰值相差不大，没有较宽且较平的谷底的那些图像，可以采用峰谷法进行门限分割。

这种图像有突出目标和背景。

此时，可以选择两峰之间的谷点作为门限值。

峰谷法简单易行。

直方图凹形分析法对有突出目标和背景的图像，用峰谷法来选择灰度直方图门限是可行的。

而对于那些在灰度直方图上难以用谷点作门限的些图像，常常可能在直方图的肩部上找到个好的门限，因为谷点和肩部对应于直方图的凹形处，所以可以通过分析直方图的凹形处去确定门限。

设是定义在灰度层集上的直方图，现将这些灰度层上的直方图高度标示为。

对所有的，≠因此可以认为是个二维区域。

为确定的凹形性，要建其凹形壳它是个包含的最小凸多边形模型研究当我们把古籍汉字的文件里面的数据转化成矩阵后，每个像素点转化为个数字，因为我们处理的是古籍汉字，所以通过去噪等处理后只有黑白两色，我们规定黑色用表示，白色用表示，并对文件整体进行检索包括横向和纵向，计算出汉字的平均宽度和平均高度，具体的行和列的切分方法如下列切分按列检索，当找到第个全为的列并记录列号，再继续向下检索，找到再次出现的位置记录之前列的列号，然后在处切开，即是将前列存储到另个文件里。

具体是把每列存储成行，然后再通过转置恢复成原来形式。

依据这个方法依次把每列切分出来。

行切分拿出列，首先用与列切分相同的方法做个大致的切分，但是因为古籍汉字的特点，些上下结构的字就会被切开，连笔的字会被切在起，所以就需要我们进行判断，合并及重新切分。

综合原有的科学成果，有最小加权路径法，投影法，阈值分割法，区域生长法，纹理结构分析法，聚类法等，但是综合分析，虽然各有各的优点，但也都有定的缺点。

通过分析，我们产生了定的想法首先通过投影法进行粗分割，通过与平均高度，找出不合格的片段，重新与该片段前后的片段合并，通过最小加权路径法，求得最佳路径，再进行切分，如果不能找到最佳路径，我们可以退而求其次，使用相对较好的路径。

假设最终没有办法切分，我们可以将不能辨别的片段输出，进行人工辨认，并对每次人工切分的数据记录下来，比如粘连的切分路径，存在个文件里，当再遇到无法切分的文字时，先调用文件中的数据进行尝试，这样如果是大型文献的扫描切分，文件中记录的方法会越来越全，对以后的工作提供了大量资源。

算法及编码实现编码实现语言部分，获取图像宽高每像素所占位数等信息定义变量，计算图像每行像素所占的字节数必须是的倍数灰度图像有颜色表，且颜色表表项为申请颜色表所需要的空间，读颜色表进内存申请位图数据所需要的空间，读位图数据进内存，关闭文件读取文件成功给定个图像位图数据宽高颜色表指针及每像素所占的位数等信息，将其写到指定文件中，如果位图数据指针为，则没有数据传入，函数返回，颜色表大小，以字节为单位，灰度图像颜色表为字节，彩色图像颜色表大小为，待存储图像数据每行字节数为的倍数