我在唐山企业网站的博客里说过,学seo研究算法很傻,但是还是有很多人问se算法的问题,其中TF-IDF算法问的最多。为了加深人们对这个问题的理解,我将深入分析这个算法的一些问题。
第一点,TF-idf是什么?
Tf和idf是两个不同的概念。TF通过单词在文档中的重复次数来表示单词在所有术语中的重要性,而另一个IDF表示单词在所有文档中的重要性。越出现越常用的词。因为主题不强,重复越多,重要性越低。TF-IDF是一种统计方法,
它用于评估一个单词对文档集或语料库中一个文档的重要性。单词的重要性与它在文档中出现的次数成正比,但与它在语料库中出现的频率成反比。搜索引擎经常使用各种形式的TF-IDF加权作为文档和用户查询之间相关性的度量或评级。
这个百科的解释和我自己的描述,不知道大家是不是都很清楚。总之,TF-IDF通过一定的统计意义来表达术语的重要性。为什么seo会关注他,因为他可能会影响到搜索词和搜索词的相关性,进而影响排名。
第二点,TF-IDF算法是解决什么的,能起到多大的作用?
其实既然研究过这个算法,就不能不理解这个算法解决了什么。其实就像我刚才说的,主要是解决一个文档中的词条权重问题(很多人知道这个算法影响排名,但是不知道为什么这个算法会影响排名)。那么我们可以再问一遍,影响条款权重的因素有多少?目测只有5、6个左右(但是我们都知道有多少?),TF-IDF在词汇项中占什么位置?重要性可能排第三第四(不是最重要的因素)。而且我一直说,如果真的要研究算法,不仅要研究算法是什么,还要考虑算法的特点和算法特点的处理,因为它们都影响最终的结果,比如这个TF-IDF算法。
第三点,TF-IDF的算法特征是什么
这是人们很少关注的一点。算法特征和算法特征的处理之所以重要,是因为每个算法都会控制因素的影响,或者说平滑处理。这也不例外。很多人不重视这种影响,或者对它有激进的想法,所以会担心很多seo细节,但是看不懂。想学这个,我觉得Google的黑板报讲了很多算法,很多实际应用模型和理论模型有一定差距,这就是现实。
第四点,TF-IDF算法再向上,问题的来源是什么,处于检索的什么地位?
其实我一直推荐的是从更长远的角度来看这个问题,比如TF-IDF应该解决的问题的根源是什么,这个问题在检索原理中可以占据什么位置,是否会随着时间而改变。只要你想好了,更多的seo慢慢涌现,TF-IDF也可以慢慢放弃。
第五点,算法之外
TF-IDF用于研究术语的权重,早期用于判断相关性,但不一定是静态的。比如BM25算法在很多方面比他更有优势。但是随着语义分析等检索技术的发展,这种算法的范围和影响会逐渐受到限制。这也是学习算法的悲剧。而且我一直说的是我们可以跳出这个范畴,从问题本身去思考,或者从检索的角度去观察这个问题的意义,观察解决这个问题的可行性,观察结果和我们所想的差距.嘎嘎,不能再进一步了.