Question

我正在尝试标记一个简单的字符串：

这是一张笑脸：！

我的代码是：

#!/usr/bin/python
# -*- coding: utf-8 -*-

from nltk.tokenize.casual import TweetTokenizer

s = u"Here is a smiling face: !"

s1 = TweetTokenizer().tokenize(s)
print (s1)

这就是我得到的：

[u'Here', u'is', u'a', u'smiling', u'face', u':', u'\ud83d', u'\ude00', u'!']

笑脸不应该作为一个标记返回（这是由于＆＃39;狭窄的构建＆＃39;？）？我如何组合\ ud83d和\ ude00并打印出来，这样我才能看到结果中有一个笑脸???

我在OS X Yosemite 10.10.5上使用Python 2.7和NLTK 3.0.5。

感谢。

Answer 1

您只需升级_close，它就可以正常工作。

NLTK

如果仍然无法正常运行，那么可能是切换到# upgrade nltk pip install nltk --upgrade的好时机，因为对Python3的支持以及相关库都没有得到维护。

nltk.tokenize.casual和表情符号

1 个答案: