这是一个将文本文件转换为标记列表的函数。
def tokenizeFile(TextFile):
text_string = TextFile.lower()
result=""
punct = string.punctuation;
for char in range (0,len(text_string)):
if(text_string[char] in punct):
if(text_string[char-1].isdigit()):
result += text_string[char]
if(text_string[char] not in punct):
result += text_string[char]
token = (result.split())
return token
我想打印这个令牌列表但是要运行以下程序: -
txt = open("test.txt",encoding = 'utf-8')
text = txt.read()
token = tokenizeFile(text)
print(token)
我得到了UnicodeEncodeError。从我研究的内容来看,我知道你必须通过.encode()方法明确告诉python。我是python的初学者。我只是不知道如何实现它。请帮帮我! 从我到目前为止,使用相同的编码以写入模式打开另一个文件并写入该文本文件。程序显示没有错误,但我希望程序打印出令牌。请帮帮我!