【利用字频统计的中文自动文摘系统的研究与实现】.pdf

硕士论文:摘要 基于字频统计的中文自动摘要系统 摘要 本文首先对自动文摘系统的历史、现状及发展趋势作了简单回顾、总结和展 望,接着对自动文摘牵涉的一些原理作了阐述,然后提出了用后邻字符树进行候选 句子的抽取,并讨论了在领域语料库中生成后邻字符树库,用于候选摘要句子抽取 时的加权,来提高候选摘要句子对原文的符合度.本实验系统已基本实现,最后给出一部分实现结果.关键词 自动文摘自然语言处理字符树词频统计 AUTOMATICABSTRACTIONBASEDON THESTATISTICSOFCHINESECHARACTERFREQUENCY Abstract In this paper,a r
硕士论文:目录 第三章自动文摘的设计及实现第一节后邻字符树的定义第二节后邻字符树的生成3建立停用词表3后邻字符树的存贮结构3后邻字符树的生成算法3剔除非合理字段第三节领域语料库的处理3语料库的选择3语料库中后邻字符树的生成第四节候选文摘句的确定文章中的后邻字符树的生成3句子权值的计算3候选文摘句选取的算法第五节自动文摘的后处理.
硕士论文:第一章综述 接着就是要确定代表文献内容的句子。为了找出这些能代表文献内容的句子,以实义词为串头和串尾,中间最多只能有4个常用词,每个子串代表文献主题内容 的值(ri)为该串中所有关键词总数(pi)的平方与串中出现的词总数(qi)之比,即ri =Pi²/qi。为了选出能形成文摘的句子,Luhn定义了两种选择句子的标准:1.高于事先某个规定值ri的句子.2.事先决定凡具有最高值ri的句子的数目.选择句子时,只要符合上面这两条标准之一者都可被出来.后来人们又发展了Luhn的研究成果。Baxendale提出在选取最能代表文献主 题内容的句子时应考虑标题和副标题。 