准备数据(文本文件)以进行预处理。 我无法将文本文件拆分为单词。
import io
f = io.open("pg5200.txt", mode="r", encoding="utf-8")
text = f.read()
f.close()
import re
words = re.split(r'\W+', text)
print(words[:100])
使用上面的代码后:问题是我在开头有一个额外的空格(“”)。
我可以知道为什么会出现这个额外的空间,我该如何删除它?
谢谢