我正在处理一个Python文件,它输入一个带有日文字符(UTF-8)的文本文件,接受一些文本,并将其写入一个新的UTF-8文本文件。
我遇到的问题是,由于某种原因,只要日文字符だ出现在原始输入文件的一行的末尾,它就会在输出文件中显示为菱形问号。
在行结束之前だ的实例读取完全正常,并且原始输入文件使其读取完全正常,即使它在行的末尾。
答案 0 :(得分:2)
由于您还没有共享任何代码段,我建议您使用utf-8
模块阅读和编写codecs
文件的通用方法:
# Reading utf-8 encoded file
with codecs.open("in.txt", "r", encoding="utf-8") as input_data:
data = input_data.read()
# Write utf-8 encoded file
with codecs.open("out.txt", "w", encoding="utf-8") as output_data:
output_data.write(data)
顺便说一句,我在给定的角色上测试了它,它的效果非常好。