推广

文本关键词提取方法及具体操作步骤。

iseeyu3年前 (2024-01-11)推广184

在搜索引擎中,通过处理海量的文本关键词进而尽可能满足用户搜索需求是搜索引擎核心,无论一篇文章的长短,搜索引擎都可以通过提取关键词的方法来判断整篇文章的主题,因此如何判断一篇文章的核心关键词是什么非常重要,下面关于为什么要做关键词提取以及基于TF-IDF的文本关键词抽取方法作简单介绍。

为什么要做关键词提取

关键字提取是文本挖掘领域的一个重要组成部分。从文本中提取关键词有三种方法:监督、半监督和无监督。监督关键字提取算法是将关键字提取算法构造为两类问题来判断文档中的词或短语是否为关键字。由于这是一个分类问题,因此有必要提供标记的训练预测。训练语料库用于训练关键词提取模型。根据该模型,对需要提取关键字的文档的关键字提取算法进行了半监督。

构造关键词提取模型只需要少量的训练数据,然后利用模型对新文本进行检查。关键字提取,手动筛选这些关键字,并将筛选后的关键字添加到培训集以重新培训模型。无监督的方法不需要手动标记语料库。一些方法被用来寻找文本中更重要的词作为关键字并提取关键字。监督文本关键字提取算法要求人工成本高,现有的文本关键字提取主要采用无监督关键字提取,适用性强。

文本关键字提取的过程如下:无监督文本关键字提取流程图无监督关键字提取算法可分为三类:基于统计特征的关键字提取、基于词图模型的关键字提取和基于主题模型的关键字提取。基于统计特征的文本关键字提取算法基于统计特征的关键字提取算法基于统计特征的关键字提取算法是利用文档中的统计信息提取关键字。

一般情况下,文本经过预处理得到候选词集,然后通过特征值量化从候选词集中获得关键词。基于统计特征的关键词提取方法的关键是采用何种特征值量化指标。

基于TF-IDF的文本关键词抽取方法

词频(Term Frequency,TF)

指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频,因此根据文件的长度,需要对给定词语进行归一化,即用给定词语的次数除以当前文件的总词数。

逆向文件频率(Inverse Document Frequency,IDF)

是一个词语普遍重要性的度量。即如果一个词语只在很少的文件中出现,表示更能代表文件的主旨,它的权重也就越大;如果一个词在大量文件中都出现,表示不清楚代表什么内容,它的权重就应该小。

TF-IDF的主要思想是,如果某个词语在一篇文章中出现的频率高,并且在其他文章中较少出现,则认为该词语能较好的代表当前文章的含义。即一个词语的重要性与它在文档中出现的次数成正比,与它在语料库中文档出现的频率成反比。

TF-IDF是对文本所有候选关键词进行加权处理,根据权值对关键词进行排序。假设Dn为测试语料的大小,该算法的关键词抽取步骤如下所示:

(1) 对于给定的文本D进行分词、词性标注和去除停用词等数据预处理操作。本分采用结巴分词,保留'n','nz','v','vd','vn','l','a','d'这几个词性的词语,最终得到n个候选关键词,即D=[t1,t2,…,tn] ;

(2) 计算词语ti 在文本D中的词频;

(3) 计算词语ti 在整个语料的IDF=log (Dn /(Dt +1)),Dt 为语料库中词语ti 出现的文档个数;

(4) 计算得到词语ti 的TF-IDF=TF*IDF,并重复(2)—(4)得到所有候选关键词的TF-IDF数值;

(5) 对候选关键词计算结果进行倒序排列,得到排名前TopN个词汇作为文本关键词。

上述关于文本关键词提取方法及具体操作步骤作简单介绍,希望这些知识对您有所帮助!

扫描二维码推送至手机访问。

版权声明:本文由西安泽虎代运营发布,如需转载请注明出处。

转载请注明出处https://www.0291.com.cn/post/104229.html

相关文章

口碑营销案例(全网打造企业/品牌口碑营销)

口碑营销案例(全网打造企业/品牌口碑营销)

随着互联网的发展,互联网的早期红利期已经结束。目前,互联网行业的用户开发成本越来越高,电子商务的转化率也越来越低。为了降低用户的开发成本,提高转化率,公司必须重视口碑营销。口碑营销是通过口碑自动传播,老客户带来新客户的营销模式,成本极低,效果可持续性强。 迅推客媒体认为,口碑是市场对产品的反馈,但...

【网站seo策划分析】从哪几方面做好网站seo引流。

【网站seo策划分析】从哪几方面做好网站seo引流。

1、 网站定位 网站的定位往往是一句话的事情,但我觉得大多数站长只是停留在以自我为中心的猜测中,都是用个人的想象力,不顾用户、感受石头过河的心态去定位网站。因此,很多站长在网站的定位上花了大量的时间和精力,最终得到的却是,都是曲折的。当然,绕道而行并非好事,但在互联网信息化时代,互联网上...

基尼系数太高了,13亿的主人竟然占财富总量不足3.79%!

基尼系数太高了,13亿的主人竟然占财富总量不足3.79%!

基尼系数太高了,13亿的主人竟然占财富总量不足3.79%!...

顾家家居抖音代运营品牌营销方案【两微一抖】【种草带货】

顾家家居抖音代运营品牌营销方案【两微一抖】【种草带货】

本方案分享的是《顾家家居抖音代运营方案【家居】【两微一抖】【种草带货】》,PPT版本,57页。来源:懂车帝若需获取本篇完整版资源,请关注公众号:侠说。太侠已集合超2.0万份报告或方案,覆盖各行各业,助攻职场,培养格局,增大视野。报告节选如下:【报告完整版】公众号《侠说》;侠...

我来教你搜索引擎是根据什么来分析用户需求的。

我来教你搜索引擎是根据什么来分析用户需求的。

一个网站优化的核心部分是用户体验,那么在做好用户体验的前提是必须要了解用户。这不仅仅只是咱们在做网站的时分要剖析自己的网站用户需求,查找引擎也需求这样剖析,一个庞大的数据,查找引擎是无法人工来剖析用户需求,那么看看查找引擎是如何剖析的吧。 查找引擎是怎么剖析用户需求的? 一...

新能源汽车能量管理策略开发及仿真

一、能量管理策略开发目的 根据新能源动力系统构型不同,能量管理策略有不同的表现形式和控制策略,但是最终的目的均是为了在满足车辆动力性、驾驶性等基本性能的前提下,根据能量存储装置及能量转换装置的特性和车辆运行工况,实现能量在能量转换装置之间按最佳路线流动,使整车的能量利用率达...

现在,非常期待与您的又一次邂逅

我们努力让每一部企业宣传片和抖音短视频成为商业大片