导致问题的特殊UTF字符“”

时间:2018-10-26 04:19:10

标签: python-3.x utf-8 python-requests

我正在使用RPA工具将pdf转换为文本。在Python中以utf8格式读取文本文件时,字符串iodine-deficiency会以某种方式转换为 iodinedeficiency如果在Notepad ++中打开,则十六进制表示形式xEFxBFxBE在哪里。

我在Python中的示例代码是

import re, ctypes
search_string = ""
temp = "iodinedeficiency"
ctypes.windll.user32.MessageBoxW(0, str(temp), "DATA", 3)
temp = re.sub(search_string,"-",temp)
print(temp)

输出

iodine-deficiency

ctypes返回

iodinedeficiency

打印结果显示新的字符串“碘缺乏症”,但问题是ctypes MessageBox仅显示“碘缺乏症”。我从UiPath工具运行该脚本,其解释器将字符串显示为“碘缺乏症”(即,它与字符串的“ ctypes”解释对齐)

问题是,当我尝试在csv中写入此字符串时,会导致出现问题,并为无法读取的内容返回错误“已删除的部分:/xl/sharedStrings.xml发生XML错误。(字符串)非法的xml字符。第101行,第143列。 删除的记录:/xl/worksheets/sheet1.xml部件中的单元格信息”-(字符串)无效的xml字符。

为解决这个问题,我有一个代码来搜索非法字符“”并将其替换为空格或“”,并且当我从命令提示符处运行时它可以工作。当我尝试使用UiPath工具时,它无法检测到“”,因此我可以删除此非法字符/无法识别的字符。

能否请您帮助解决此问题,以帮助我检测到此问题。提前致谢。

我要搜索的字符在下面

Screen shot of U+FFFD glyph

0 个答案:

没有答案