刮痧问题(数据重新发送)

时间:2015-04-30 11:22:26

标签: java html automation web-scraping imacros

我试图根据我提取的数据搜索网站并编制电子表格 我试图抓的网站是WEARVR 我对刮擦没有太多经验,但我的方法是在html标签中找到独特的属性并用它来刮掉我想要的东西。
因此,对于这个网站,我的方法是首先在点击其中一个体验时抓取您所采用页面的URL列表,例如:https://www.wearvr.com/#game_id=game_1041
然后循环执行此操作列表每次都刮取相关属性。 然而,我被困在第一步,而不是使用简单的" a href"标签,我遇到了#34; data-reactid"标签混淆了这件事。

我正在使用iMacros进行拼抢,但我现在在Java上相当不错,所以如果需要的话,可以学习Java(这似乎可能因为iMacros非常有限)。

我的问题是,这些"数据重新发送"标签是如何工作的,因此我如何利用它们来实现我的刮擦目的?

此外,如果这是一个XY问题,请告诉我并建议更好的方法。

感谢阅读!

1 个答案:

答案 0 :(得分:0)

处理抓取的最简单方法是将页面视为一个大字符串(因为最终,它就是这样)。您可以在该字符串中搜索某些内容(例如href =)以获取链接。您还可以智能地假设a标签中的任何内容与链接相关并抓住它。

您真的不需要理解HTML,并且您不必了解页面或任何其他css或标记的工作方式,您只需要确定所需文本周围的可识别字符串组合类型。我会说这可能比使用IMacro更容易在Java中实现,并且可能更准确。

您可以处理它的另一种方法是将整个页面视为XML文档,这需要更多的HTML和XML知识。这...并不总是适用于HTML,特别是如果它更旧或形成不良,所以字符串方法更容易。您可以从存在的各种XML映射库中获得一些实用程序,但除此之外它与上面的类似。