什么方法可以对论文关键词提炼方法取分析

面向主题的关键词抽取方法研究--《复旦大学》2013年博士论文
面向主题的关键词抽取方法研究
【摘要】:关键词是人们获取信息的快捷方式,在信息检索和自然语言处理等领域均有重要的理论价值和应用价值。现有的关键词抽取方法大都依靠词汇的统计信息进行抽取,忽略了话题的影响;而且它们仅仅专注于关键词个体的优化,而忽略了关键词的整体质量。本文针对如何对文档主题建模,并通过文档主题优化关键词的整体质量进行了以下工作:基于整数线性规划的关键词抽取;基于排序学习的摘要关键词抽取;基于话题翻译模型的微博关键词抽取。本文的工作包括:
提出了基于整数线性规划的关键词抽取方法。首先提出全局优化关键词质量的意义,并提出高质量关键词应具备的准则。为了对这些准则建模,提出了一种基于整数线性规划的关键词抽取方法。所提出的准则分别转化为整数线性规划问题的目标函数和约束条件。通过求解整数线性规划问题,可以得到高质量的关键词集合。实验表明该方法能够在保证关键词个体质量的前提下,同时优化关键词的整体质量。
提出了基于排序学习的新闻摘要关键词抽取方法。“新闻摘要关键词”是指若干关键词的整体作为新闻摘要。首先讨论了新闻摘要关键词的价值,并定义了高质量的摘要关键词应满足的准则。为了对这些准则建模,提出了一个两阶段基于排序学习的摘要关键词抽取方法。第一阶段是候选关键词的选择,即从语料中选择若干个候选关键词个体;第二阶段是将候选关键词的所有子排列进行重排序,将最好的子排列作为最终的摘要关键词。实验表明基于排序学习的关键词抽取方法可以提取高质量的新闻摘要关键词,同时也验证了提出特征的有效性。
提出了一种面向主题的翻译模型,并应用该模型进行微博关键词抽取的研究。为了解决微博较短,并且话题多样化的问题,提出了一种面向主题的翻译模型。该模型可以很好的综合话题模型和翻译模型的优点,一方面,它可以解决由微博较短引起的微博内容和关键词间的词汇差异问题;另一方面,它可以通过对微博主题的建模,帮助抽取主题相关的微博关键词。在对微博主题建模的研究中,尝试了两种建模方式:第一种是基于经典的话题模型Latent Dirichlet allocation[12],即假设每篇文档包含若干个主题,而文档中的每个词语关联一个主题。这种建模方式中的部分假设基于传统文档,而没有考虑短文档(如微博)的特性。为了更好的考虑微博特性,尝试了第二种建模方式,其中,假设每条微博只关联一个主题,并且假设微博中的词语分为两类:“主题词”和“背景词”。实验表明面向主题的翻译模型在效果上优于一些经典的关键词抽取方法,如分类模型,话题模型和翻译模型,并通过实例分析了对微博主题建模的两种方式的优劣。
【学位授予单位】:复旦大学【学位级别】:博士【学位授予年份】:2013【分类号】:TP391.1
欢迎:、、)
支持CAJ、PDF文件格式
【引证文献】
中国硕士学位论文全文数据库
胡琪;[D];太原理工大学;2016年
【参考文献】
中国期刊全文数据库
刘远超;王晓龙;徐志明;刘秉权;;[J];电子学报;2007年02期
索红光;刘玉树;曹淑英;;[J];中文信息学报;2006年06期
王军;[J];中文信息学报;2005年06期
李素建,王厚峰,俞士汶,辛乘胜;[J];计算机学报;2004年09期
【共引文献】
中国期刊全文数据库
朱琳琳;徐健;;[J];情报理论与实践;2017年01期
许海云;董坤;刘春江;王超;王振蒙;;[J];情报科学;2017年01期
宋宇;罗准辰;真溱;;[J];情报理论与实践;2016年11期
许海云;王振蒙;胡正银;王超;朱礼军;;[J];情报理论与实践;2016年11期
贾惠娟;;[J];信息技术与信息化;2016年07期
宋宇;真溱;;[J];情报理论与实践;2016年07期
时永宾;余青松;;[J];计算机工程;2016年06期
胡菊香;吕学强;刘秀磊;刘克会;;[J];科学技术与工程;2016年14期
杨双龙;吕学强;李卓;徐丽萍;;[J];中文信息学报;2016年03期
曲云鹏;王文玲;;[J];知识管理论坛;2016年02期
【同被引文献】
中国硕士学位论文全文数据库
牛萍;[D];大连理工大学;2015年
贾明静;[D];青岛理工大学;2014年
孙小欣;[D];华中师范大学;2013年
杜晨;[D];长春理工大学;2013年
左晓飞;[D];西安电子科技大学;2013年
王惠勇;[D];东北大学;2012年
肖根胜;[D];华中师范大学;2012年
郭勇;[D];湖南大学;2012年
罗义兵;[D];山东科技大学;2010年
张永刚;[D];苏州大学;2010年
【二级参考文献】
中国期刊全文数据库
卢志茂;刘挺;李生;;[J];电子学报;2006年02期
王军;[J];中文信息学报;2005年06期
郑家恒,卢娇丽;[J];计算机工程;2005年18期
李素建,王厚峰,俞士汶,辛乘胜;[J];计算机学报;2004年09期
丁春;[J];编辑学报;2004年02期
罗盛芬,孙茂松;[J];中文信息学报;2003年03期
韩客松,王永成;[J];情报学报;2001年02期
何新贵,彭甫阳;[J];中文信息学报;1999年01期
刘开瑛,薛翠芳,郑家恒,周晓强;[J];中文信息学报;1998年02期
王永成,苏海菊,莫燕;[J];中文信息学报;1990年04期
【相似文献】
中国期刊全文数据库
;[J];液晶与显示;2008年01期
;[J];液晶与显示;2009年01期
;[J];液晶与显示;2009年02期
;[J];液晶与显示;2009年03期
;[J];液晶与显示;2010年02期
;[J];液晶与显示;2010年03期
;[J];真空科学与技术学报;2004年01期
;[J];液晶与显示;2008年02期
;[J];液晶与显示;2008年03期
;[J];液晶与显示;2008年04期
中国重要会议论文全文数据库
;[A];薄膜技术学术研讨会论文集[C];2003年
;[A];中国真空学会2006年学术年会论文集[C];2006年
;[A];全国薄膜技术学术研讨会论文集[C];2006年
;[A];中国真空学会第六届全国会员大会暨学术会议论文集[C];2004年
李春久;;[A];外向型文献库的数据质量控制——首届CUJA系统学术讨论会论文集[C];1990年
中国博士学位论文全文数据库
宣俊宇;[D];上海大学;2016年
丁卓冶;[D];复旦大学;2013年
中国硕士学位论文全文数据库
郭建波;[D];合肥工业大学;2015年
刘亚妮;[D];电子科技大学;2011年
吕晨;[D];山东科技大学;2010年
热依莱木·帕尔哈提;[D];新疆大学;2014年
王惠勇;[D];东北大学;2012年
王良芳;[D];浙江工业大学;2013年
王文姝;[D];哈尔滨工程大学;2010年
温安国;[D];复旦大学;2009年
彭浩;[D];中南大学;2008年
谭志强;[D];西安工程大学;2011年
&快捷付款方式
&订购知网充值卡
400-819-9993豆丁微信公众号
君,已阅读到文档的结尾了呢~~
【优秀毕业论文】 中文关键词提取技术
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
【优秀毕业论文】 中文关键词提取技术
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='http://www.docin.com/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口掌握这四种方法,你就能快捷提取论文关键词
写好论文是大学生综合能力的集中体现。众所周知,标题、提要、关键词、正文、参考文献是组成论文的五个部分。其中,关键词也许是字数最少的一部分,但它却是不容忽视的重要一环。
小编先来讲讲枯燥的理论。论文的关键词数量在3-8个,位于“提要”的左下方。为了满足文献标引或检索工作的要求,关键词的选取具有一定的规范性。它包括主题词和自由词2个部分。主题词是专门为文献的标引或检索而从自然语言的主要词汇中挑选出来并加以规范了的词或词组;自由词则是未规范化的即还未收入主题词表中的词或词组。在确定主题词时,要对论文进行主题分析,依照标引和组配规则转换成主题词表中的规范词语。(参见《汉语主题词表》和《世界汉语主题词表》)。
而在实际操作中,如何快捷高效地提取论文关键词呢?小编把以下几点分享给大家。
1、根据论文主题提取关键词
一篇论文必然有它论述的内容与方向,它有时可以概括为学科属性,比如有关法律的论文的关键词可以是法律相关,有关医学的论文可以是精细些的学科分类,比如内科学、中医妇科等等。
2、根据论文标题提取关键词
论文的标题通常开门见山,直接说明了论文所叙述的内容,所以截取标题中的一个或几个中心词可以直接作为论文关键词。比如“老年人用药安全性及原则”就可以提取出“老年人”、“合理用药”等关键词。
3、根据高频词提取关键词
一篇论文中出现频率最高的词绝大多数的时候都可以直接拿来做关键词。但要注意的是,因为论文字数多,信息量大,有时候高频词较多。这时要注意筛选,抓住主要矛盾。可以对高频词进行一个大致的排序,选取前几位。同时在关键词排列的时候也要根据与论文的相关性依次排列。
4、根据相关论文提取关键词
这是个不太入流的小技巧。在查找相关论文可以留意它的关键词,结合自己论文主题进行选择。想偷懒不想在关键词上耗费脑力的可以这么做,不过也不要对此过度依赖。
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
中国知网论文查重检测系统由知网VIP、AMLC期刊检测、TMLC等构成。支持官网验证。
提供中国知网论文检测、万方检测、维普网检测,均支持官网验证,24小时自助查重。
今日搜狐热点百度指数是用以反映关键词在过去30天内的网络曝光率及用户关注度!它能形象地反映该关键词的每天的变化趋势!指数是以网页搜索和新闻搜索为基础的免费海量数据分析服务,用以反映不同关键词在过去一段时间里的“用户关注度”和“媒体关注度”。您可以发现、共享和挖掘互联网上最有价值的信息和资讯,直接、客观地反映社会热点、网民的兴趣和需求。
配色/在线汉字品牌全面升级,论文检测进入“PaperRight”时代!
学术论文中的关键词及其选取方法
paperrater
| 来源:PaperRater论文检测系统
1、关键词的涵义
关键词(keyword)是直接从文献的题名、正文或文摘中抽取出来出的具有检索意义的语词。关键词是主题词的一种。主题词有广义和狭义之分,广义的主题词包括标题词、元词、叙词和关键词,狭义的主题词专指叙词。关键词索引语言是一种未经选优和规范化的自然语言,标题词、元词、叙词索引语言都属于受控语言,关键词索引语言与主题法其它索引语言(标题语言、元词语言、叙词语言)的主要区别即在于此。在检索语言中,所谓规范化处理主要指词类、词形(如英语中的单复数,汉语中汉字的简体字、繁体字、异体字)和词义(如同义词、近义词、多义词)的规范。比如,同义词“计算机”和“电脑”、“激光”和“莱塞”,经过规范化处理后是以选择“计算机”、“激光”作为正式主题词。由于关键词不要求在词义、词形上做严格的规范化处理,因此没有可供参照的词表,选取时比较容易,只要能表达文献的主题,除停用词表(stop-list)以外的词都可选作关键词。而其它的主题词则要经过严格的规范化处理,并都有词表(如(汉语主题词表))可供参考,选取时不仅要表达文献主题,而且要查对词表,看是不是词表中经过规范化处理的正式主题词。由此可见,关键词的选取比其它类型的主题词方便得多,标引效率较高。关键词的涵义国内学术界说法很多,主要分歧体现在关键词与主题词的关系上,试分述如下:
1.1 等同关系
认为确定文章的关键词要选用《汉语主题词表》中的正式叙词(主题词),这种观点将属于规范化语言的叙词(主题词)与属于自然语言的关键词混为一谈,是对关键词基本概念的误解,会使关键词的标引者无所适从。
1.2 整体与部分的关系
认为关键词由叙词和自由词(应为关键词)组成。叙词和关键词同属主题法系统,都是用语词作为检索标识。在关键词的标引过程中,有些词就是叙词表中的正式叙词,但在关键词索引语言中只能把它当作关键词来看待。关键词由叙词和自由词组成的提法是不妥的。
1.3 属种关系
认为主题词由标题词、元词、叙词和关键词组成,主题词和关键词是属种关系。
1.4 并列关系
认为主题词和叙词是同一概念,与关键词是并列关系。笔者认为,以上(1)、(2)两种观点与关键词的基本概念不能吻合;(3)、(4)两种观点的分歧在于对主题词概念的理解,狭义的主题词(叙词)与关键词是并列关系,广义的主题词与关键词是属种关系。
2、关键词的选词
关键词虽然不需要严格的词义和词形上的规范化处理,但关键词的选取要力求做到:简炼地使用关键词———不滥选;正确揭示主题———不错选;全面反映主题———不漏选。同时关键词选取的范围以及关键词的词类等方面都有一定的要求。
2.1 关键词选词的方法
2.1.1 抽词法
就是从题名或者文摘和全文中直接抽取关键词。如从题名《关于图书馆信息服务网络化的思考》中直接抽取“图书馆”、“信息服务”、`网络化'等作为关键词。
2.1.2 赋词法
就是依据文献题名、文摘或全文进行主题分析,凭藉标引人员的智慧并参照有关工具书,人为地提炼出能够表达主题概念的关键词,如标引“普通化学教学改革的研究与实践”这个主题概念,给出“普通化学”、“教学改革”、“高等教育”、“课程设置”、“第二课堂”、“化学教学”、“实验教学”、“教学方法”等关键词。
2.2 关键词词类的选择
关键词主要选择概念明确、含义清楚的名词和名词性词组;冠词、介词、连词、助动词、某些形容词不选作关键词;没有检索意义的通用词(如分析、影响、发展、研究、探讨、应用、评价、建议、问题等)一般也不选作关键词。比如,“应用现代教育技术优化物理课堂教学”一文,可选取“物理教学”、“课堂教学”、“现代教育技术”作为关键词,“应用”一词没有检索意义,故不选作关键词。再如,“电子出版物对信息传播模式的影响”一文,可选取“电子出版物”、“信息传播模式”、“图书馆”作为关键词。“传播”虽然是动词,但“信息传播模式”是名词性词组,故可以选作关键词。一些表示时间概念的词不能单独作为关键词,如“古代”、“现代”、“建国初期”、“新时期”、“转型期”、“21世纪”等。凡是如人名、地名、事物名称等简短单一的名词,就可直接把它作为一个关键词,如“毛泽东”、“上海”、“黄河”、“人民日报”、“生物学”、“西安事变”等。
3、复合词组的切分与保留
3.1 一个复合词组由“整体与局部”两个关键词构成时,可切分为两个词,如“汽车发动机”切分为“汽车”、“发动机”两个词。
3.2 一个复合词组由概念交叉的两个关键词构成时,切分为两个词。如“起重运输机”切分为“起重机”、“运输机”两个关键词。切分概念交叉的复合词组时,要按概念切分,不能按字面切分,如“小儿肺炎”可以切分为“小儿疾病”、“肺炎”两个关键词。
3.3 一个复合词组被切分后,产生歧义时,应保留复合词组作为一个关键词。如“黑色金属”,不能再切分成“黑色”和“金属”。
3.4 固定搭配且具有特定含义的词组和科技术语,不宜拆分开来,而应以词组和科技术语作为关键词。这样不仅可以减少关键词的数量,而且能更好地表达文献的主题,不致产生词义上的理解误差。比如,“网络环境下图书馆信息资源建设”一文,可选取“信息资源建设”、“图书馆”、“网络环境”作为关键词,但不宜将“信息资源建设”拆分为“信息资源”和“建设”,因为“信息资源建设”表达的是一个特定的概念,而“建设”无检索意义。
由上述可见,关键词虽然不是严格规范化的主题词,但也必须按照一定的规则去选词,只有这样,才能通过有限的几个词来准确、充分、简炼地揭示出文章的主题,提高主题标引的质量和文献检索的效果。}

我要回帖

更多关于 论文关键词提炼方法 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信