无法写入/读取从PDF提取的字符串文本

时间:2019-05-29 18:47:23

标签: python python-3.x apache-tika converters tika-server

我从PDF中提取了全部文本,并保存在变量“ CCR”中。我可以打印,并且可以正常显示文字。但是,当我尝试读取其行或保存在txt文件中时,它只是显示我/保存空白/没有任何内容。有什么想法吗?

当我打印变量(正常工作)时的示例:

  

“第9章-数字转换”

我正在使用tika服务器提取文本。

txt_CCR = open(r"C:\Users\guerr\OneDrive\Documentos\PYTHON\TXT_FILES\CCR.txt", "w")

txt_CCR.write(CCR)
txt_CCR.close()

当我尝试写入文件时,它给了我这个错误:

UnicodeEncodeError                        Traceback (most recent call last)
<ipython-input-23-94a2126671fc> in <module>()
      1 txt_CCR = open(r'C:\Users\guerr\OneDrive\Documentos\PYTHON\TXT_FILES\CCR.txt', 'w')
----> 2 txt_CCR.write(CCR)
      3 txt_CCR.close()

~\Anaconda3\lib\encodings\cp1252.py in encode(self, input, final)
     17 class IncrementalEncoder(codecs.IncrementalEncoder):
     18     def encode(self, input, final=False):
---> 19         return codecs.charmap_encode(input,self.errors,encoding_table)[0]
     20 
     21 class IncrementalDecoder(codecs.IncrementalDecoder):

UnicodeEncodeError: 'charmap' codec can't encode character '\uf0b7' in position 95944: character maps to <undefined>

0 个答案:

没有答案