【基於N联字的汉字识别後处理研究】.pdf

基于N联字的汉字识别后处理研究的上下文关系,对初级识别中误认拒识或不确定的汉字语段作进一步确认的一种方法,具体讨论了误认字库和联字库的建立及其库结构设计,给出了实现此方法的理论算法和实际系统,并在理论上证明了这个算法的正确性.[关键字]汉字识别.N联字.数据库.后处理.综合评判.不确定汉字语段,A StudyPostprocessingApproach to Chinese Character RrcognitionBasedonN-United-Word ABSTRACT In order toincrease the recognized rate of chinese cha

一、前言计算机汉字识别是指用计算机建立视觉系统,自动认识印刷或书写在纸上的汉字,它是汉字信息处理系统中一种高速自动输入手段,在我国受到高度重视,随着模式识别技术和人工智能原理的日臻完善,汉字识别的研究得到了不断发展,近十年来,我国的科研人员在单体印刷体汉字识别,多体印刷体汉字识别,联机手写汉字识别的研究领域内取得了一些可喜的成果,但从识别率来看,识别系统还不十分理想.从识别方法上来看,目前汉字识别方法的主流是统计方法和句法方法。这二种方法都已经有了较长的历史,积累了很多成熟的经验。但由于在实际应用中汉字书写技术的原因,如印刷汉字文本质量不高等。

中的三联字.“人行道”,“人生观”是“人”为前的三联字.“接班人”,“局外人”是“人”为后的三联学.定义2:联字频率:几个联在一起的字,共同出现的频率f.字频:某个汉字在所有汉字中出现的频率W.相似度R:待识汉字和不确定汉字的相似程度.在N联字汉字识别后处理法中,首先建立一个初级单个汉字识别中常常误识或不确定的汉字库以及这些汉字在第1位第2位直到第n位时的N联字字库及其相应的N联字频率,然后根据由单个汉字识别时所提供的不确定汉字的相似度R,不确定字本身的字频W和不确定汉字在各位时的N联字频率f(i=1,2,3,*,n)的综合评判函数G值的大小来确定汉字。