我正在尝试标记一个简单的字符串:
这是一张笑脸:!
我的代码是:
#!/usr/bin/python
# -*- coding: utf-8 -*-
from nltk.tokenize.casual import TweetTokenizer
s = u"Here is a smiling face: !"
s1 = TweetTokenizer().tokenize(s)
print (s1)
这就是我得到的:
[u'Here', u'is', u'a', u'smiling', u'face', u':', u'\ud83d', u'\ude00', u'!']
笑脸不应该作为一个标记返回(这是由于'狭窄的构建'?)? 我如何组合\ ud83d和\ ude00并打印出来,这样我才能看到结果中有一个笑脸???
我在OS X Yosemite 10.10.5上使用Python 2.7和NLTK 3.0.5。
感谢。
答案 0 :(得分:1)
您只需升级_close
,它就可以正常工作。
NLTK
如果仍然无法正常运行,那么可能是切换到# upgrade nltk
pip install nltk --upgrade
的好时机,因为对Python3
的支持以及相关库都没有得到维护。