在pdf /文本文档中阅读时单词之间的随机间隔

时间:2018-07-18 20:42:23

标签: r text-mining data-import

我正在尝试将文本数据导入R以进行文本挖掘分析,但我马上就停了下来!当我检查读入的内容时,单词之间会出现随机间隔。

例如,原始pdf中出现的这样一个句子“今天真的很热”变成了这样的东西“今天真的很热”。

我在网上没有找到太多指导(如果您要手动将pdf转换为word文件,例如,通过单击此处所述的不同转换选项,则只有一些技巧来解决此问题,{: 3}}

为了排除故障,我尝试了许多不同的事情。

我尝试使用pdf_text中的pdftools函数和readPDF中的tm函数直接将pdf读入R。

我还尝试过先使用 pdftotext.exe 将pdf转换为文本文件,然后使用readLines内置的R读取结果,并读取.csv ,但是我遇到了同样的问题。当我打开并检查创建的.txt文件时,空格就在这里!如果我手动将pdf转换为文本文件,它们也在那里!

我开始怀疑原始pdf文件本身是否存在问题,尤其是因为我随后在另一组pdf上运行了每种方法(从科学文献中随机抽取,因此它们的来源完全不同),并且在任何地方都没有空格!这些单词仍然是单词,而不是被奇怪的空格所分割!

有人有没有遇到过类似的事情,或者对可能发生的事情有任何线索?

可能是pdf本身吗?有解决办法吗?

预先感谢您的任何想法。

0 个答案:

没有答案