如何遍历分页的json结果并存储文章文本以进行情感分析/ NLP?

时间:2019-04-29 13:55:03

标签: python json python-3.x api nlp

这个答案太简单了吗?

我正在尝试使用webhose.io API整理一组文章进行情感分析。该API一次返回100篇文章,并且包含一种转到下一组结果的方法。作为一个相对较新的程序员,我在获取所有文章时遇到问题。

我从webhose.io在其python github上提供的代码开始。 https://github.com/Webhose/webhoseio-python

我尝试了几种方法,但是没有一种方法能完全满足我的需求。以下是我尝试过的方法。我确定我会忽略一些非常基本的内容。

import webhoseio
webhoseio.config(token="my_token")
query_params = {
    "q": "topic language:english site_type:blogs domain_rank:<1000",
    "ts": "1553562010902",
    "sort": "crawled"
}

output = webhoseio.query("filterWebContent", query_params)

articles = []
for post in output['posts']:
    articles.append(post['text'])

# alternatively I have tried
output = []
while True:
    temp = webhoseio.get_next()
    output = output + temp['posts']
    if temp['moreResultsAvailable'] <= 0:
        break

# this call the next set of results
webhoseio.get_next()

正如我在一开始提到的那样,我试图获取生成的前100个结果,但要存储初始代码,然后将其存储到下一个100个结果中,并将其附加到前100个结果中,依此类推,依次类推,直到出现没有文章了。

0 个答案:

没有答案