我写了一个允许日语输入的GUI,当你去文件>解析写入文本文件。然后该文本文件通过MeCab运行,其中空格放在单词之间。之后,它应该再次写入文本文件,因此它可以显示在另一个GUI窗口中。
我遇到的问题是它不想将解析后的数据写入文本文件。第一次写它没有问题。此外,它将解析的信息打印到IDLE也没问题。这是解析器和错误:
#!/usr/bin/python
# -*- coding: <utf-8> -*-
import sys
import MeCab
import codecs
read_from = open("pholder.txt").read()
mecab = MeCab.Tagger("-Owakati")
output = mecab.parse(read_from)
print output
text = output
write_to = codecs.open("pholder.txt", "w", "utf-8")
write_to.write(text)
write_to.close()
Traceback (most recent call last):
File "C:\...\mecabSpaces.py", line 16, in <module>
write_to.write(text)
File "C:\...\codecs.py", line 691, in write
return self.writer.write(data)
File "C:\...\codecs.py", line 351, in write
data, consumed = self.encode(object, self.errors)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)
答案 0 :(得分:4)
解析后的数据不是unicode,它是一个字节字符串。
因此,当您尝试将数据写入文件时,它会在编码之前尝试将解码解码为到utf-8
。由于您的默认编解码器是ascii
,但实际上您有utf-8
,因此它会阻塞第一个字符值为128或更高的字符。
您应该.decode('utf-8')
返回的数据,或者使用返回unicode数据的mecab
方法。
答案 1 :(得分:0)
这是工作代码。感谢agf帮助我把头伸出我的屁股。
#!/usr/bin/python
# -*- coding: <utf-8> -*-
import MeCab
read_from = open("pholder.txt", "r").read()
mecab = MeCab.Tagger("-Owakati")
output = mecab.parse(read_from)
print output
text = output
write_to = open("pholder.txt", "w").write(text)