【基於N联字的汉字识别後处理研究】.pdf

基于N联字的汉字识别后处理研究 的上下文关系,对初级识别中误认拒识或不确定的汉字语段作进一步确认 的一种方法,具体讨论了误认字库和联字库的建立及其库结构设计,给出 了实现此方法的理论算法和实际系统,并在理论上证明了这个算法的正确 性.[关键字]汉字识别.N联字.数据库.后处理.综合评判.不确定汉字语段,A StudyPostprocessingApproach to Chinese Character RrcognitionBasedonN-United-Word ABSTRACT In order toincrease the recognized rate of chinese cha
一、前言 计算机汉字识别是指用计算机建立视觉系统,自动认识印刷或书写在纸上的 汉字,它是汉字信息处理系统中一种高速自动输入手段,在我国受到高度重视,随 着模式识别技术和人工智能原理的日臻完善,汉字识别的研究得到了不断发展,近十年来,我国的科研人员在单体印刷体汉字识别,多体印刷体汉字识别,联机手 写汉字识别的研究领域内取得了一些可喜的成果,但从识别率来看,识别系统还 不十分理想.从识别方法上来看,目前汉字识别方法的主流是统计方法和句法方法。这二 种方法都已经有了较长的历史,积累了很多成熟的经验。但由于在实际应用中汉 字书写技术的原因,如印刷汉字文本质量不高等。
中的三联字.“人行道”,“人生观”是“人”为前的三联字.“接班人”,“局外人”是“人”为后的三联学.定义2:联字频率:几个联在一起的字,共同出现的频率f.字频:某个汉字在所有汉字中出现的频率W.相似度R:待识汉字和不确定汉字的相似程度.在N联字汉字识别后处理法中,首先建立一个初级单个汉字识别中常常误识 或不确定的汉字库以及这些汉字在第1位第2位直到第n位时的N联字字库 及其相应的N联字频率,然后根据由单个汉字识别时所提供的不确定汉字的相似 度R,不确定字本身的字频W和不确定汉字在各位时的N联字频率f(i=1,2,3,*,n)的综合评判函数G值的大小来确定汉字。 