Question

准备数据（文本文件）以进行预处理。我无法将文本文件拆分为单词。

import io
f = io.open("pg5200.txt", mode="r", encoding="utf-8")
text = f.read()
f.close()

import re
words = re.split(r'\W+', text)
print(words[:100])

使用上面的代码后：问题是我在开头有一个额外的空格（“”）。

我可以知道为什么会出现这个额外的空间，我该如何删除它？

谢谢

Answer 1

您可以使用strip功能。

检查这个答案 How do I trim whitespace?

将文本拆分为python中的单词

1 个答案: