我正在尝试将文本数据导入R以进行文本挖掘分析,但我马上就停了下来!当我检查读入的内容时,单词之间会出现随机间隔。
例如,原始pdf中出现的这样一个句子“今天真的很热”变成了这样的东西“今天真的很热”。
我在网上没有找到太多指导(如果您要手动将pdf转换为word文件,例如,通过单击此处所述的不同转换选项,则只有一些技巧来解决此问题,{: 3}}
为了排除故障,我尝试了许多不同的事情。
我尝试使用pdf_text
中的pdftools
函数和readPDF
中的tm
函数直接将pdf读入R。
我还尝试过先使用 pdftotext.exe 将pdf转换为文本文件,然后使用readLines
内置的R读取结果,并读取.csv ,但是我遇到了同样的问题。当我打开并检查创建的.txt文件时,空格就在这里!如果我手动将pdf转换为文本文件,它们也在那里!
我开始怀疑原始pdf文件本身是否存在问题,尤其是因为我随后在另一组pdf上运行了每种方法(从科学文献中随机抽取,因此它们的来源完全不同),并且在任何地方都没有空格!这些单词仍然是单词,而不是被奇怪的空格所分割!
有人有没有遇到过类似的事情,或者对可能发生的事情有任何线索?
可能是pdf本身吗?有解决办法吗?
预先感谢您的任何想法。