Question

我是Python的新手，我一直试图将文本文件标记化并将结果写入另一个文本文件。但是，当我打印结果时，我得到了我想要的东西，但在尝试写入文本文件时，它变得乱七八糟。

这是我的代码：

from nltk.tokenize import word_tokenize
with open ('F:\\Project\\nega.txt', 'r') as fin, open('tokens.txt', 'w') as out_file:
for line in fin:
    tokn = word_tokenize(line)
    for word in tokn:
        #print(word)
        out_file.write(word)

Answer 1

总结（对于未来的观众） - 问题是由于文件的编码。大多数编辑器使用UTF-8编码，但许多Windows编辑器倾向于ANSI标准。因此，有两种方法可以解决这个问题：

在Python中更改输出编码：

# UTF-8 
open(fname, "w", encoding="utf-8")

# ANSI
open(fname, "w", encoding="ansi")

使用其他编辑器（或允许您选择编码的编辑器）。

Python将中文字符写入文本文档

1 个答案: