如何在R中将多个pdf转换为语料库以进行文本分析?

时间:2018-06-28 09:50:07

标签: r nlp topic-modeling

我有一个非常基本的问题,因为我是绝对的初学者。我试图在线寻求帮助,并阅读了不同的教程和手册,但找不到答案。

我的项目非常简单。我有数十个pdf文件(存储在一个文件夹中),我想对其内容进行分析(无监督学习)。最终目标是主题分析。现在是问题所在:我能找到的每本指南都直接跳转到这些文本的预处理,而无需执行将这些文件加载​​到R和定义语料库的第一步。

因此,基本上,我想在一个数据框中分解所有这些pdf进行分析,但是我缺少将这些pdf加载到R中的第一步。

任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

有多种方法,但是如果您想将其放入语料库,则有一种简单的方法可以实现。它确实需要安装pdftools软件包(install.packages("pdftools")),因为这将是读取pdf的引擎。这只是使用tm包将所有内容读入语料库的问题。

library(tm)

directory <- getwd() # change this to directory where files are located

# read the pdfs with readPDF, default engine used is pdftools see ?readPDF for more info
my_corpus <- VCorpus(DirSource(directory, pattern = ".pdf"), 
                               readerControl = list(reader = readPDF))