我是Python的新手,我一直试图将文本文件标记化并将结果写入另一个文本文件。但是,当我打印结果时,我得到了我想要的东西,但在尝试写入文本文件时,它变得乱七八糟。
这是我的代码:
from nltk.tokenize import word_tokenize
with open ('F:\\Project\\nega.txt', 'r') as fin, open('tokens.txt', 'w') as out_file:
for line in fin:
tokn = word_tokenize(line)
for word in tokn:
#print(word)
out_file.write(word)
答案 0 :(得分:1)
总结(对于未来的观众) - 问题是由于文件的编码。大多数编辑器使用UTF-8
编码,但许多Windows编辑器倾向于ANSI
标准。因此,有两种方法可以解决这个问题:
# UTF-8
open(fname, "w", encoding="utf-8")
# ANSI
open(fname, "w", encoding="ansi")