随着互联网大数据的到来,人们时刻面临着网络信息过载的问题,加之网络新闻中充斥着大量的“标题党”现象。因此,越来越多的人对文本摘要生成感兴趣。文本摘要技术属于自然语言处理领域,是利用计算机对原文内容进行分析,将关键含义提炼出来,形成简短文本的技术。近年来,大量学者们在文本摘要技术上有所研究,使之有了很大的进步,但依然面临着诸多挑战。本文针对抽象文本摘要方法中存在信息丢失以及未登录词等问题,研究自动关键字提取算法以及基于编码器与解码器框架的抽象摘要方法,并将关键字提取方法应用于文本摘要任务中,探索了引入关键字信息表征对抽象文本摘要任务的影响。第一,为了使关键字信息表征更加准确,本文针对TextRank方法中仅仅考虑单词共现度的局限问题以及单词初始重要性表征的不合理问题,并受到容错粗糙集可对语料库中语义、语法等进行深层次挖掘的启发,提出了一种基于容错粗糙集的自动关键字提取方法。在文本聚类任务实验中,将提出的改进方法与三个强基准进行比较,最后实验结果表明该方法优于基准模型,并且反映了将容错粗糙集理论融入关键字提取方法是合理和有效的。第二,本文针对文本摘要技术中存在关键信息缺乏以及暴露偏差等问题,将更加准确的关键语义信息引入到带有注意力机制的Seq2Seq模型上,提出了基于关键字提取的文本摘要模型。在训练阶段,采用Teacher Forcing方法更加有效地训练模型,缓解了暴露偏差问题。在测试阶段,利用集束搜索优化序列的生成效果,并结合了覆盖模式,解决了未登录词问题,提高了模型生成摘要的质量。在LCSTS数据集的文本摘要任务实验中,将生成摘要与参考摘要进行ROUGE自动评测,得到的ROUGE-1、ROUGE-2、ROUGE-L分数可以分别达到41.8%、27.9%、37.8%。最后实验结果验证了所提模型在文本摘要任务上的有效性,同时也表明了所提关键字提取方法有一定的实用性。
基于关键字提取的文本摘要相关技术研究
2024-11-01 23:24
随着互联网大数据的到来,人们时刻面临着网络信息过载的问题,加之网络新闻中充斥着大量的“标题党”现象。因此,越来越多的人对文本摘要生成感兴趣。文本摘要技术属于自然语言处理领域,是利用计算机对原文内容进行分析,将关键含义提炼出来,形成简短文本的技术。近年来,大量学者们在文本摘要技术上有所研究,使之有了很大的进步,但依然面临着诸多挑战。本文针对抽象文本摘要方法中存在信息丢失以及未登录词等问题,研究自动关键字提取算法以及基于编码器与解码器框架的抽象摘要方法,并将关键字提取方法应用于文本摘要任务中,探索了引入关键字信息表征对抽象文本摘要任务的影响。第一,为了使关键字信息表征更加准确,本文针对TextRank方法中仅仅考虑单词共现度的局限问题以及单词初始重要性表征的不合理问题,并受到容错粗糙集可对语料库中语义、语法等进行深层次挖掘的启发,提出了一种基于容错粗糙集的自动关键字提取方法。在文本聚类任务实验中,将提出的改进方法与三个强基准进行比较,最后实验结果表明该方法优于基准模型,并且反映了将容错粗糙集理论融入关键字提取方法是合理和有效的。第二,本文针对文本摘要技术中存在关键信息缺乏以及暴露偏差等问题,将更加准确的关键语义信息引入到带有注意力机制的Seq2Seq模型上,提出了基于关键字提取的文本摘要模型。在训练阶段,采用Teacher Forcing方法更加有效地训练模型,缓解了暴露偏差问题。在测试阶段,利用集束搜索优化序列的生成效果,并结合了覆盖模式,解决了未登录词问题,提高了模型生成摘要的质量。在LCSTS数据集的文本摘要任务实验中,将生成摘要与参考摘要进行ROUGE自动评测,得到的ROUGE-1、ROUGE-2、ROUGE-L分数可以分别达到41.8%、27.9%、37.8%。最后实验结果验证了所提模型在文本摘要任务上的有效性,同时也表明了所提关键字提取方法有一定的实用性。