我正在从Twitter收集数据,每条推文都是字典形式。
我的完整数据集是数千条推文(词典列表)的列表。
我想在每条推文中引用标签,但我需要帮助找出如何做到这一点。
以下是包含相关数据的两条部分推文列表的示例:
twitter_tweets =
[{'created_at': 'Wed Oct 18 22:20:30 +0000 2017', 'id': 920776631102214144, 'entities': {'hashtags': ['#dataanalyst#', '#politics']} 'user': {'id': 119116331, 'statuses_count': 32796, 'verified': False, 'lang': 'en-'}, 'retweet_count': 0, 'favorite_count': 0}
{'created_at': 'Wed Oct 17 12:20:36 +0000 2017', 'id': 920776631106514144, 'entities': {'hashtags': ['#california', '#nationalparks']} 'user': {'id': 119159331, 'statuses_count': 32796, 'verified': False, 'lang': 'en-gb'}, 'retweet_count': 1, 'favorite_count': 2}]
请注意,“entities”键的值为第二个字典。在第二个字典中,“hashtags”是键,值是一个hashtags列表。
以下是我试图收集所有这些主题标签列表以创建频率序列的代码:
def make_tweets_series(input_list, first_key, second_key):
final_keys_list = []
for line in input_list:
tweets_by_key = line[first_key][second_key]
final_keys_list.append(tweets_by_key)
series_key_values = pd.Series(final_keys_list).value_counts()
return series_key_values
hashtag_distribution_series = make_tweets_series(twitter_tweets, 'entities', 'hashtags')
我认为,如果“hashtags”值是一个字符串,这段代码可以正常工作,但它不起作用,因为“hashtags”是一个字符串列表。
如何引用这些列表中的每个主题标签并将它们放入系列?
带有回溯的完整错误消息如下:
Traceback (most recent call last):
File "<ipython-input-60-7623feb35c84>", line 13, in <module>
hashtag_distribution_series = make_tweets_series(twitter_tweets, 'entities', 'hashtags')
File "<ipython-input-60-7623feb35c84>", line 6, in make_tweets_series
series_key_values = pd.Series(final_keys_list).value_counts()
File "/home/tommy/anaconda3/lib/python3.6/site-packages/pandas/core/base.py", line 938, in value_counts
normalize=normalize, bins=bins, dropna=dropna)
File "/home/tommy/anaconda3/lib/python3.6/site-packages/pandas/core/algorithms.py", line 640, in value_counts
keys, counts = _value_counts_arraylike(values, dropna)
File "/home/tommy/anaconda3/lib/python3.6/site-packages/pandas/core/algorithms.py", line 685, in _value_counts_arraylike
keys, counts = f(values, dropna)
File "pandas/_libs/hashtable_func_helper.pxi", line 356, in pandas._libs.hashtable.value_count_object (pandas/_libs/hashtable.c:29440)
File "pandas/_libs/hashtable_func_helper.pxi", line 367, in pandas._libs.hashtable.value_count_object (pandas/_libs/hashtable.c:29189)
TypeError: unhashable type: 'list'
答案 0 :(得分:2)
list
不可用字面意思是什么意思;你不能散列list
对象。 dict
使用对象的哈希值来查找键 - &gt;值;它的速度更快。
请改用tuple
,因此返回字符串列表时,只需调用tuple(...)
即可。元组是不可变的有序集合,其行为与列表类似,除了是不可变和可散列的。