一种新的NLP思路

发布时间：2021-03-12 12:22:16 所属栏目：外闻来源：互联网

导读：不太清楚？继续往下看。 Text2Image 详述预处理数据采用小写形式，删除所有特殊字符，并将文本和标题连接起来。文件中 85% 以上的文字也被删除。此外，要明确避免使用单词列表 (stopwords)。使用的是一份标准的停顿词列表，大部分是没有信息的重复词。特别

不太清楚？继续往下看。

Text2Image 详述

预处理

数据采用小写形式，删除所有特殊字符，并将文本和标题连接起来。文件中 85% 以上的文字也被删除。此外，要明确避免使用单词列表 (stopwords)。使用的是一份标准的停顿词列表，大部分是没有信息的重复词。特别是要对假新闻的断句进行修改，这是未来值得探索的一个领域，特别是可以为假新闻带来独特的写作风格。

计算 TF-IDF

为了对关键字进行评分和提取，Text2Image 使用了 tf-idf 的 scikit-learn 实现。对于假新闻语料库和真实新闻语料库，IDF 分别计算。与整个语料库的单个 IDF 分数相比，计算单独的 IDF 分数会导致准确性大幅提高。然后迭代计算每个文档的 tf-idf 分数。在这里，标题和文本不是分开评分的，而是一起评分的。

理 TF-IDF 值

对于每个文档，将提取具有最高 TF-IDF 值的 121 个单词。这些单词然后用于创建一个 11x11 数组。在这里，选择的单词数量就像一个超参数。对于更短、更简单的文本，可以使用更少的单词，而使用更多的单词来表示更长的、更复杂的文本。根据经验，11x11 是这个数据集的理想大小。将 TF-IDF 值按大小降序排列，而不是按其在文本中的位置映射。TF-IDF 值以这种方式映射，因为它看起来更能代表文本，并且为模型提供了更丰富的特性来进行训练。因为一个单词可以在一篇文章中出现多次，所以要考虑第一次出现的单词。

不按原样绘制 TF-IDF 值，而是按对数刻度绘制所有值。这样做是为了减少顶部和底部值之间的巨大差异。

（编辑：漯河站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!