应用错误收集

用Python抓网Yik Yak？

时间：2016-03-03 19:38:32

标签： python cookies web-scraping python-requests urllib3

我在这里有一个非常独特的问题。我对web抓取和python整体比较陌生，但我一直在尝试使用诸如requests，urllib3和BeautifulSoup之类的库。我的目标是从我所在地区（学院区域）的牦牛Yik Yak服务器中获取数据，并创建一个具有特定条款的牦牛数据库。

目前要通过网络浏览器访问Yik Yak，您必须首先输入您的电话号码，然后在iPhone上的应用程序上请求代码并在Web浏览器中输入代码以查看和发布新的牦牛。要使这个过程自动化似乎是不可能的我有两个可能的想法可以解决这个问题，如果可能的话，我正在请求对这些方法或行动方法的反馈。

我的第一个想法是先让python将我的电话号码发送到输入字段，然后请求用户输入，我可以从手机中检索访问代码，然后将其输入到python控制台，然后开始抓取
我的第二个想法（如果我的第一个想法不可能）是从我的浏览器中复制已经授权查看和发布牦牛的cookie，然后“模拟”我可以开始抓取数据的浏览器会话。

这只是一个侧面项目，我开始研究你可能提供的任何帮助都会很棒。谢谢你的阅读。

Yik Yak在线可以访问here，但需要手机帐户和生成的访问代码。 访问代码仅适用于60秒，但可以无限次生成，并在Iphone / Android上的Yik Yak应用程序中生成

1 个答案:

答案 0 :(得分：0)

我不是100％清楚你要做什么。如果您只需要获取一次电话代码，那么只需获取它并对其进行硬编码即可。但听起来您可能想要考虑浏览器自动化而不是网页抓取以从浏览器会话中获取数据。它们是有区别的。 Webscraping只是对服务器的简单请求，它返回可以解析的HTML - 这对于静态页面来说很好。但是当你必须有会话cookie和输入表格来处理时，浏览器自动化是可行的方法。您可以填写下拉列表，选择组合框，填充文本框，单击按钮等。

大多数人使用Selenium;但我也会查看斯普林特的ChromeDriver。两者都可以完成工作。希望这会有所帮助。