在text2vec中,我能找到的关于停用词的唯一功能是“create_vocabulary”。但在文本挖掘任务中,我们通常需要消除资源文档中的停用词,然后构建语料库或其他进一步的过程。我们如何使用“stopword”来处理使用text2vec构建语料库,dtm和tcm的文档?
之前我用过tm进行文本挖掘。它具有分析PDF文档的功能,但它将一篇论文作为几个向量(一行,一个向量)读取,而不是像我期望的那样将每个文档作为向量读取。此外,tm中的格式交换功能在中文中存在乱码问题。如果使用text2vec来阅读文档,是否可以将一篇论文读入一个向量?(又称。向量的大小是否足以让一篇论文发表在期刊上?)否则,text2vec中内置的语料库和向量与内置的tm兼容?
答案 0 :(得分:1)
创建文档术语矩阵有两种方法:
有关详细信息,请参阅text-vectorization vignette。
你很有意思2选择。这意味着您应该构建词汇表 - 将在所有下游任务中使用的单词/ ngram集。 create_vocabulary
创建词汇表对象,只有来自此对象的术语才会用于后续步骤。因此,如果您将stopwords
提供给create_vocabulary
,它会将其从语料库中所有观察到的单词集中删除。如您所见,您应该只提供一次停用词。所有的下游任务都适用于词汇。
回答第二个问题。
text2vec
没有为阅读PDF文档提供高级功能。但它允许用户提供自定义阅读器功能。您所需要的只是阅读带有一些功能的完整文章,并将它们重塑为字符向量,其中每个元素对应于所需的信息单元(完整文章,段落等)。例如,您可以使用paste()
函数轻松地将线条组合为单个元素。例如:
article = c("sentence 1.", "sentence 2")
full_article = paste(article, collapse = ' ')
# "sentence 1. sentence 2"
希望这有帮助。