Question

我正在尝试用Python制作一种机器人，在我选择的互联网上扫描一些信息。问题是，Facebook和Twitter等网站在每次使用时都会获得API要求密钥。例如，如何在没有奇怪的密钥的情况下将Twitter结果发现给研究，以便在Python中验证我的请求？有可能吗？

Answer 1

如果您不想对每个API进行身份验证，那么要采取的路线是抓取。基本上，您可以在HTML表单中下载twitter search results并解析该HTML文件。如果你查看HTML文件（firefox中的control + U），你可以看到推文文本包含在这个元素中：

<p class="js-tweet-text tweet-text">

您将无法收集尽可能多的数据，但它将主要匿名收集（没有密钥/身份验证）。要收集更多数据，您可以使用在网站HTML中找到的链接抓取（例如下一页）。

以下是python中关于抓取的一些阅读材料：link。

除lxml之外，BeautifulSoup是一个功能强大且受欢迎的用于抓取和解析HTML的库。