Question

我有一个非常基本的问题，因为我是绝对的初学者。我试图在线寻求帮助，并阅读了不同的教程和手册，但找不到答案。

我的项目非常简单。我有数十个pdf文件（存储在一个文件夹中），我想对其内容进行分析（无监督学习）。最终目标是主题分析。现在是问题所在：我能找到的每本指南都直接跳转到这些文本的预处理，而无需执行将这些文件加载到R和定义语料库的第一步。

因此，基本上，我想在一个数据框中分解所有这些pdf进行分析，但是我缺少将这些pdf加载到R中的第一步。

任何帮助将不胜感激。

Answer 1

有多种方法，但是如果您想将其放入语料库，则有一种简单的方法可以实现。它确实需要安装pdftools软件包（install.packages("pdftools")），因为这将是读取pdf的引擎。这只是使用tm包将所有内容读入语料库的问题。

library(tm)

directory <- getwd() # change this to directory where files are located

# read the pdfs with readPDF, default engine used is pdftools see ?readPDF for more info
my_corpus <- VCorpus(DirSource(directory, pattern = ".pdf"), 
                               readerControl = list(reader = readPDF))

如何在R中将多个pdf转换为语料库以进行文本分析？

1 个答案: