我正在尝试用Python制作一种机器人,在我选择的互联网上扫描一些信息。问题是,Facebook和Twitter等网站在每次使用时都会获得API要求密钥。 例如,如何在没有奇怪的密钥的情况下将Twitter结果发现给研究,以便在Python中验证我的请求?有可能吗?
答案 0 :(得分:1)
如果您不想对每个API进行身份验证,那么要采取的路线是抓取。基本上,您可以在HTML表单中下载twitter search results并解析该HTML文件。如果你查看HTML文件(firefox中的control + U
),你可以看到推文文本包含在这个元素中:
<p class="js-tweet-text tweet-text">
您将无法收集尽可能多的数据,但它将主要匿名收集(没有密钥/身份验证)。要收集更多数据,您可以使用在网站HTML中找到的链接抓取(例如下一页)。
以下是python中关于抓取的一些阅读材料:link。
除lxml之外,BeautifulSoup是一个功能强大且受欢迎的用于抓取和解析HTML的库。