我想收集一些来自Twitter的主题标签。 阅读我需要获取实体的文档 https://dev.twitter.com/docs/platform-objects/tweets
"entities":
{
"hashtags":[],
"urls":[],
"user_mentions":[]
}
我目前能够访问Entities dict和hashtags list
for line in iter(my_tweet_file)
tweetionary = json.loads(line)
print tweetionary["entities"]
print tweetionary["entities"]["hashtags"]
但是我无法正确解析hashtags列表中的项目,我对文本值感兴趣(以下示例中为lin和Scot)
[{u'indices': [41, 45], u'text': u'lin'}, {u'indices': [55, 60], u'text': u'Scot'}]
我想填充从hashtags列表中提取的文本字典。
谢谢,丹尼
答案 0 :(得分:0)
您可以使用内置的Counter()
:
from collections import Counter
extracted = [{u'indices': [41, 45], u'text': u'lin'},
{u'indices': [55, 60], u'text': u'Scot'}]
count = Counter([d['text'] for d in extracted])
#Note: For python 2.x remove brackets around print statements
print(count['lin'])
print(count.most_common())
输出:
1
[('Scot', 1), ('lin', 1)]