刘耀,帅远华,龚幸伟,黄毅.基于领域本体的文本分割方法研究[J].计算机科学,2018,45(1):128-132, 156
基于领域本体的文本分割方法研究
Study on Text Segmentation Based on Domain Ontology
投稿时间:2017-05-08  修订日期:2017-09-18
DOI:10.11896/j.issn.1002-137X.2018.01.021
中文关键词:  文本分割,领域本体,语义标注,语义段落
英文关键词:Text segmentation,Domain ontology,Semantic annotation,Semantic paragraph
基金项目:
作者单位
刘耀 中国科学技术信息研究所 北京 100038 
帅远华 北京大学 北京 100080 
龚幸伟 中国科学技术信息研究所 北京 100038 
黄毅 中国科学技术信息研究所 北京 100038 
摘要点击次数: 631
全文下载次数: 466
中文摘要:
      文本分割在信息检索、摘要生成、问答系统、信息抽取等领域发挥着重要作用。在总结现有的国内外文本分割方法的基础上,提出了一种基于领域本体对文本进行线性分割的方法。该方法利用初始概念自动获取结构化语义概念集合,并根据获取的概念、属性及属性词在文本中出现的频次、位置和关系等因素为段落赋予语义标签,挖掘文本的子主题信息,将拥有相同语义标注信息的段落划分为相同语义段落,实现了文本不同子主题之间的分割。实验结果表明,该方法对于特定领域的文本分割的准确率、召回率以及F值分别达到了85%,90%和88%,分割效果能够满足实际应用需求,并优于现有的无需训练语料的文本分割方法。
英文摘要:
      Text segmentation plays an important role in information retrieval,abstract generation,question-answering system,information extraction and so on.This paper put forward a new text segmentation method based on domain ontology after analyzing and summarizing existing methods at home and abroad.The method first uses initial concept to automatically obtain structured semantic concepts set,which are then used to affix semantic labels to paragraphs in text based on the frequency of occurrence,position and relationship of concepts and properties.Paragraphs with the same semantic annotation information are grouped into one semantic paragraph,which helps discover the sub-topics information and meanwhile realize topic segmentation for texts.The experimental result shows that the precision,recall and F-mea-sure of this method can achieve 85%,90% and 88% respectively,which performs better than most existing methods and satisfies the real application needs.
查看全文  查看/发表评论  下载PDF阅读器