抓取网站获取数据

时间:2018-08-22 00:45:24

标签: python python-3.7

我目前正在python 3.7中制作AI虚拟助手。如果您不熟悉该术语(虚拟助手),请参考以下示例:Siri,Google Home,Alexa,Bixby等。我正在使用的AI可以打开您的网站并将其重定向到可以满足您要求的网站例如,如果我要求新闻它将打开cnn,这是打开cnn的代码:

webbrowser.open("https://www.cnn.com") 

但是,我希望AI从CNN网站上打印突发新闻。如果您想知道我是否曾在彩票网站尝试过类似的事情

import json
import urllib.request
from pprint import pprint

websource = urllib.request.urlopen ('http://www.masslottery.com/data/json/games/lottery/recent.json')
data = json.loads(websource.read().decode())
pprint(data)

谢谢!

2 个答案:

答案 0 :(得分:0)

您正在寻找的被称为RSS feed,大多数新闻网站都提供了它们,因此您可以轻松解析新故事。

对于CNN,您可以在此处进行检查:How to link C++ program with Boost using CMake,然后选择您想要的RSS feed。

让我们说说这里的热门故事,您可以从我最初发布的链接存储库中获取此http://www.cnn.com/services/rss/,然后从页面中请求数据并解析您想要的内容,很可能是使用python beautifulsoup库,第4版教程可以在这里找到:http://rss.cnn.com/rss/cnn_topstories.rss

答案 1 :(得分:0)

对于python,您应该查看用于Web自动化的Beautiful Soup和Selenium。

查看XPath和Css Slector。

了解如何在浏览器中使用调试器。 例如Chrome开发者工具或Firebug ...