如何在Python 3.5.2中标记字符串

时间:2016-10-09 00:07:10

标签: python-3.x nltk

我想对字符串进行标记,并使用以下代码:

print(raw)
tokens = nltk.word_tokenize(raw)
tokens

'raw'是从HTML文件中提取的文本。我打印了“原始”,但最后两行不起作用。我有nltk 3.2.1和Python 3.5.2。我记得nltk的创建者说nltk仍然在升级为Python 3。

在Python 3.5.2环境中有没有其他方法来标记字符串? BeautifulSoup或其他套餐是否可以做到这一点?

1 个答案:

答案 0 :(得分:0)

对于最后一行代码:token 我正在关注书上的一个例子。遵循朱利叶斯的建议并将其改为

print(tokens)

有效。所以ntlk 3.2实际上适用于python 3.5。那样太好了。