TF-IDF算法解释

谷歌已经使用TF-IDF作为内容排名因素很长一段时间,因为搜索引擎似乎更关注术语频率而不是而不是计算关键字。虽然算法的视觉复杂性可能会让很多人失望,但重要的是要认识到理解TF-IDF并不像知道它如何工作那么重要。

搜索引擎使用TF-IDF来更好地理解被低估的内容。例如,如果您想在Google上搜索“可口可乐”一词,Google就可以确定标题为“COKE”的页面是关于:

a)可口可乐。
b)可卡因
c)源自原油蒸馏的固体富碳残余物
d)德克萨斯州的一个县

本文的目的是通过TF-IDF的未知主题指导所有内容编写者和SEO专家。通过更好地了解Google如何利用此算法,内容编写者可以对TF-IDF进行逆向工程,从而优化网站内容,使其更好地适用于用户和搜索引擎。并且SEO可以将其用作搜索具有更高搜索量和相对较低竞争的关键字的工具。

TF-IDF是什么?

TF-IDF是一种信息检索技术,它对术语的频率(TF)和逆文档频率(IDF)进行加权。每个单词或术语都有其各自的TF和IDF分数。术语的TF和IDF得分的乘积称为该术语的TF-IDF权重。

简而言之,TF-IDF得分(重量)越高,该术语越罕见,反之亦然。

TF-IDF算法用于权衡任何内容中的关键字,并根据该关键字在文档中出现的次数指定该关键字的重要性。更重要的是,它会检查关键字在整个网络中的相关程度,即所谓的语料库。

对于术语吨在文档d,重量重量%,d的文件中术语d t通过下式给出:

Wt,d = TFt,d log(N / DFt)

哪里:

TFt,d是文档d中t的出现次数。

DFt是包含术语t的文档数。

N是语料库中的文档总数。

好吧。如果您感到头痛,请不要惊慌。

让我们更具体地定义它。

TF-IDF定义

单词的TF(术语频率)是文档中单词的频率(即它出现的次数)。当你知道它时,你就可以看到你使用的术语是太多还是太少。

例如,当一个100字的文档包含12次“cat”这个词时,“cat”这个词的TF就是

TFcat = 12/100即0.12

单词的IDF(逆文档频率)是该术语在整个语料库中的重要程度的度量。

例如,假设术语“cat”在10,000,000,000文档大小的语料库(即web)中出现x次。假设有30万个文档包含术语“cat”,那么IDF(即log {DF})由文档总数(10,000,000)除以包含术语“cat”的文档数量(300,000) )。

IDF(cat)= log(10,000,000 / 300,000)= 1.52

∴Wcat=(TF * IDF)cat = 0.12 * 1.52 = 0.182

既然你想出了这个(对吧?),让我们来看看这对你有什么好处。

如何使用TF-IDF获益

收集话语。写下你的内容,为您的单词运行TF-IDF报告并获取其权重。数值权重值越高,该项越少。重量越小,该术语越常见。比较所有具有高TF-IDF权重的术语与其在Web上的搜索量。选择搜索量较高,竞争较慢的用户。

一个好的经验法则是,您的内容对用户“有意义”越多,搜索引擎分配的权重就越大。对于内容中TF-IDF较高的单词,您的内容将始终位于搜索结果中,因此您可以:

不要担心使用停用词,成功搜索具有更高搜索量和更低竞争力的词汇,

请确保使用能使您的内容与用户相关且与用户相关的单词等。

原创文章,作者:搜够小编,如若转载,请注明出处:http://www.sogoubaike.cn/archives/110661