Question

我目前正在python 3.7中制作AI虚拟助手。如果您不熟悉该术语（虚拟助手），请参考以下示例：Siri，Google Home，Alexa，Bixby等。我正在使用的AI可以打开您的网站并将其重定向到可以满足您要求的网站例如，如果我要求新闻它将打开cnn，这是打开cnn的代码：

webbrowser.open("https://www.cnn.com")

但是，我希望AI从CNN网站上打印突发新闻。如果您想知道我是否曾在彩票网站尝试过类似的事情

import json
import urllib.request
from pprint import pprint

websource = urllib.request.urlopen ('http://www.masslottery.com/data/json/games/lottery/recent.json')
data = json.loads(websource.read().decode())
pprint(data)

谢谢！

Answer 1

您正在寻找的被称为RSS feed，大多数新闻网站都提供了它们，因此您可以轻松解析新故事。

对于CNN，您可以在此处进行检查：How to link C++ program with Boost using CMake，然后选择您想要的RSS feed。

让我们说说这里的热门故事，您可以从我最初发布的链接存储库中获取此http://www.cnn.com/services/rss/，然后从页面中请求数据并解析您想要的内容，很可能是使用python beautifulsoup库，第4版教程可以在这里找到：http://rss.cnn.com/rss/cnn_topstories.rss

Answer 2

对于python，您应该查看用于Web自动化的Beautiful Soup和Selenium。

查看XPath和Css Slector。

了解如何在浏览器中使用调试器。例如Chrome开发者工具或Firebug ...

抓取网站获取数据

2 个答案: