我有一个非常基本的问题,因为我是绝对的初学者。我试图在线寻求帮助,并阅读了不同的教程和手册,但找不到答案。
我的项目非常简单。我有数十个pdf文件(存储在一个文件夹中),我想对其内容进行分析(无监督学习)。最终目标是主题分析。现在是问题所在:我能找到的每本指南都直接跳转到这些文本的预处理,而无需执行将这些文件加载到R和定义语料库的第一步。
因此,基本上,我想在一个数据框中分解所有这些pdf进行分析,但是我缺少将这些pdf加载到R中的第一步。
任何帮助将不胜感激。
答案 0 :(得分:0)
有多种方法,但是如果您想将其放入语料库,则有一种简单的方法可以实现。它确实需要安装pdftools软件包(install.packages("pdftools")
),因为这将是读取pdf的引擎。这只是使用tm包将所有内容读入语料库的问题。
library(tm)
directory <- getwd() # change this to directory where files are located
# read the pdfs with readPDF, default engine used is pdftools see ?readPDF for more info
my_corpus <- VCorpus(DirSource(directory, pattern = ".pdf"),
readerControl = list(reader = readPDF))