使用TweetTokenize时出现不可散列类型错误

时间:2018-10-07 21:05:33

标签: python machine-learning nltk

我首先从Twitter下载一些推文。

  

tweet_text = DonaldTrump["Tweets"] tweet_text = tweet_text.str.lower()

enter image description here

然后在下一步中,我们使用TweetTokenizer。

Tweet_tkn = TweetTokenizer() tokens = [Tweet_tkn.tokenize(t) for t in tweet_text] tokens[0:3] first three tokens

有人可以向我解释并帮助我解决它。

我曾经遇到过类似的问题,它们都面临类似的错误,但是它们提供了不同的解决方案。

Error

1 个答案:

答案 0 :(得分:0)

列表是可变的,因此不能用作dict键。否则,该程序可以将列表添加到字典中,更改其值,现在还不清楚字典中的值是否应在新列表值或旧列表值下可用,或者都不可用。

如果要将结构化数据用作键,则需要首先将它们转换为不可变类型,例如tuplefrozenset。对于非嵌套对象,您可以简单地使用tuple(obj)。要获取简单的照明清单,可以使用以下方法:

tuple(tuple(elem) for elem in obj)

但是对于任意结构,您将不得不使用递归。