应用错误收集

我正在尝试将文本数据导入R以进行文本挖掘分析，但我马上就停了下来！当我检查读入的内容时，单词之间会出现随机间隔。

例如，原始pdf中出现的这样一个句子“今天真的很热”变成了这样的东西“今天真的很热”。

我在网上没有找到太多指导（如果您要手动将pdf转换为word文件，例如，通过单击此处所述的不同转换选项，则只有一些技巧来解决此问题，{： 3}}

为了排除故障，我尝试了许多不同的事情。

我尝试使用pdf_text中的pdftools函数和readPDF中的tm函数直接将pdf读入R。

我还尝试过先使用 pdftotext.exe 将pdf转换为文本文件，然后使用readLines内置的R读取结果，并读取.csv ，但是我遇到了同样的问题。当我打开并检查创建的.txt文件时，空格就在这里！如果我手动将pdf转换为文本文件，它们也在那里！

我开始怀疑原始pdf文件本身是否存在问题，尤其是因为我随后在另一组pdf上运行了每种方法（从科学文献中随机抽取，因此它们的来源完全不同），并且在任何地方都没有空格！这些单词仍然是单词，而不是被奇怪的空格所分割！

有人有没有遇到过类似的事情，或者对可能发生的事情有任何线索？

可能是pdf本身吗？有解决办法吗？

预先感谢您的任何想法。