我正在尝试使用python获取大约5000家公司的Google新闻。
我计划每12个小时跑步一次。
我实际做的是使用Google新闻链接(https://news.google.com/news/feeds?q=MyQuery&output=rss)我为公司创建了一个链接,然后解析返回的XML以获取所需的数据。
问题是每20分钟就有500家公司返回结果并给我提供,但在此之后它开始返回空的结果。如果我打开链接它有条目,但在代码执行期间,它会在为500家公司提供新闻后停止返回结果。
现在我想知道是否有Google新闻的费率限制或每单位时间限制?
以下是我的代码
companies = Company.objects.all() #About 6000 Companies
for company in companies:
try:
SearchQuery = company.query
SearchQuery = SearchQuery.replace(' ', '%20')
rss = "https://news.google.com/news/feeds?q="+SearchQuery+"&output=rss"
feeds = feedparser.parse(rss)
for post in feeds['entries']:
try:
url = post.link
print("RSS Entry, Link: " + url)
title = post.title
print("Inserting Article (Title): "+title)
except Exception:
exc_type, exc_value, exc_traceback = sys.exc_info()
print(repr(traceback.format_exception(exc_type, exc_value,exc_traceback)))
except Exception:
exc_type, exc_value, exc_traceback = sys.exc_info()
print(repr(traceback.format_exception(exc_type, exc_value,exc_traceback)))
非常感谢你的帮助。
由于