Python 2.7 - 如何将MeCab解析信息写入文本文件?

时间:2011-10-25 15:49:57

标签: python parsing unicode mecab

我写了一个允许日语输入的GUI,当你去文件>解析写入文本文件。然后该文本文件通过MeCab运行,其中空格放在单词之间。之后,它应该再次写入文本文件,因此它可以显示在另一个GUI窗口中。

我遇到的问题是它不想将解析后的数据写入文本文件。第一次写它没有问题。此外,它将解析的信息打印到IDLE也没问题。这是解析器和错误:

#!/usr/bin/python
# -*- coding: <utf-8> -*-
import sys

import MeCab
import codecs

read_from = open("pholder.txt").read()
mecab = MeCab.Tagger("-Owakati")
output = mecab.parse(read_from)
print output


text = output
write_to = codecs.open("pholder.txt", "w", "utf-8")
write_to.write(text)
write_to.close()

Traceback (most recent call last):
  File "C:\...\mecabSpaces.py", line 16, in <module>
    write_to.write(text)
  File "C:\...\codecs.py", line 691, in write
    return self.writer.write(data)
  File "C:\...\codecs.py", line 351, in write
    data, consumed = self.encode(object, self.errors)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

2 个答案:

答案 0 :(得分:4)

解析后的数据不是unicode,它是一个字节字符串。

因此,当您尝试将数据写入文件时,它会在编码之前尝试将解码解码为到utf-8。由于您的默认编解码器是ascii,但实际上您有utf-8,因此它会阻塞第一个字符值为128或更高的字符。

您应该.decode('utf-8')返回的数据,或者使用返回unicode数据的mecab方法。

答案 1 :(得分:0)

这是工作代码。感谢agf帮助我把头伸出我的屁股。

#!/usr/bin/python
# -*- coding: <utf-8> -*-
import MeCab

read_from = open("pholder.txt", "r").read()
mecab = MeCab.Tagger("-Owakati")
output = mecab.parse(read_from)
print output

text = output
write_to = open("pholder.txt", "w").write(text)