Python将中文字符写入文本文档

时间:2018-02-07 05:26:11

标签: python nltk

我是Python的新手,我一直试图将文本文件标记化并将结果写入另一个文本文件。但是,当我打印结果时,我得到了我想要的东西,但在尝试写入文本文件时,它变得乱七八糟。

这是我的代码:

from nltk.tokenize import word_tokenize
with open ('F:\\Project\\nega.txt', 'r') as fin, open('tokens.txt', 'w') as out_file:
for line in fin:
    tokn = word_tokenize(line)
    for word in tokn:
        #print(word)
        out_file.write(word)

1 个答案:

答案 0 :(得分:1)

总结(对于未来的观众) - 问题是由于文件的编码。大多数编辑器使用UTF-8编码,但许多Windows编辑器倾向于ANSI标准。因此,有两种方法可以解决这个问题:

  1. 在Python中更改输出编码:
  2. # UTF-8 
    open(fname, "w", encoding="utf-8")
    
    # ANSI
    open(fname, "w", encoding="ansi")
    
    1. 使用其他编辑器(或允许您选择编码的编辑器)。