Question

我正在使用RPA工具将pdf转换为文本。在Python中以utf8格式读取文本文件时，字符串iodine-deficiency会以某种方式转换为 iodinedeficiency如果在Notepad ++中打开，则十六进制表示形式xEFxBFxBE在哪里。

我在Python中的示例代码是

import re, ctypes
search_string = ""
temp = "iodinedeficiency"
ctypes.windll.user32.MessageBoxW(0, str(temp), "DATA", 3)
temp = re.sub(search_string,"-",temp)
print(temp)

输出

iodine-deficiency

ctypes返回

iodinedeficiency

打印结果显示新的字符串“碘缺乏症”，但问题是ctypes MessageBox仅显示“碘缺乏症”。我从UiPath工具运行该脚本，其解释器将字符串显示为“碘缺乏症”（即，它与字符串的“ ctypes”解释对齐）

问题是，当我尝试在csv中写入此字符串时，会导致出现问题，并为无法读取的内容返回错误“已删除的部分：/xl/sharedStrings.xml发生XML错误。（字符串）非法的xml字符。第101行，第143列。删除的记录：/xl/worksheets/sheet1.xml部件中的单元格信息”-（字符串）无效的xml字符。

为解决这个问题，我有一个代码来搜索非法字符“”并将其替换为空格或“”，并且当我从命令提示符处运行时它可以工作。当我尝试使用UiPath工具时，它无法检测到“”，因此我可以删除此非法字符/无法识别的字符。

能否请您帮助解决此问题，以帮助我检测到此问题。提前致谢。

我要搜索的字符在下面

Screen shot of U+FFFD glyph

导致问题的特殊UTF字符“”

0 个答案: