Question

在text2vec中，我能找到的关于停用词的唯一功能是“create_vocabulary”。但在文本挖掘任务中，我们通常需要消除资源文档中的停用词，然后构建语料库或其他进一步的过程。我们如何使用“stopword”来处理使用text2vec构建语料库，dtm和tcm的文档？

之前我用过tm进行文本挖掘。它具有分析PDF文档的功能，但它将一篇论文作为几个向量（一行，一个向量）读取，而不是像我期望的那样将每个文档作为向量读取。此外，tm中的格式交换功能在中文中存在乱码问题。如果使用text2vec来阅读文档，是否可以将一篇论文读入一个向量？（又称。向量的大小是否足以让一篇论文发表在期刊上？）否则，text2vec中内置的语料库和向量与内置的tm兼容？

Answer 1

创建文档术语矩阵有两种方法：

使用功能哈希
使用词汇

有关详细信息，请参阅text-vectorization vignette。

你很有意思2选择。这意味着您应该构建词汇表 - 将在所有下游任务中使用的单词/ ngram集。 create_vocabulary创建词汇表对象，只有来自此对象的术语才会用于后续步骤。因此，如果您将stopwords提供给create_vocabulary，它会将其从语料库中所有观察到的单词集中删除。如您所见，您应该只提供一次停用词。所有的下游任务都适用于词汇。

回答第二个问题。

text2vec没有为阅读PDF文档提供高级功能。但它允许用户提供自定义阅读器功能。您所需要的只是阅读带有一些功能的完整文章，并将它们重塑为字符向量，其中每个元素对应于所需的信息单元（完整文章，段落等）。例如，您可以使用paste()函数轻松地将线条组合为单个元素。例如：

article = c("sentence 1.", "sentence 2")
full_article = paste(article, collapse = ' ')
#  "sentence 1. sentence 2"

希望这有帮助。

停用词和矢量制作

1 个答案: