nltk.tokenize.casual和表情符号

时间:2017-04-25 05:53:16

标签: python tokenize

我正在尝试标记一个简单的字符串:

这是一张笑脸:!

我的代码是:

#!/usr/bin/python
# -*- coding: utf-8 -*-

from nltk.tokenize.casual import TweetTokenizer

s = u"Here is a smiling face: !"

s1 = TweetTokenizer().tokenize(s)
print (s1)

这就是我得到的:

[u'Here', u'is', u'a', u'smiling', u'face', u':', u'\ud83d', u'\ude00', u'!']

笑脸不应该作为一个标记返回(这是由于'狭窄的构建'?)? 我如何组合\ ud83d和\ ude00并打印出来,这样我才能看到结果中有一个笑脸???

我在OS X Yosemite 10.10.5上使用Python 2.7和NLTK 3.0.5。

感谢。

1 个答案:

答案 0 :(得分:1)

您只需升级_close,它就可以正常工作。

NLTK

如果仍然无法正常运行,那么可能是切换到# upgrade nltk pip install nltk --upgrade 的好时机,因为对Python3的支持以及相关库都没有得到维护。