TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)
IDF的主要思想是:如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。
使用TF-IDF时要删除“停用词”,通过概念可以看出,文章中大量的“介词”(的、得、地)大量出现,会影响最终结果。