应用错误收集

我试图根据我提取的数据搜索网站并编制电子表格我试图抓的网站是WEARVR 我对刮擦没有太多经验，但我的方法是在html标签中找到独特的属性并用它来刮掉我想要的东西。
因此，对于这个网站，我的方法是首先在点击其中一个体验时抓取您所采用页面的URL列表，例如：https://www.wearvr.com/#game_id=game_1041，
然后循环执行此操作列表每次都刮取相关属性。然而，我被困在第一步，而不是使用简单的＆＃34; a href＆＃34;标签，我遇到了＃34; data-reactid＆＃34;标签混淆了这件事。

我正在使用iMacros进行拼抢，但我现在在Java上相当不错，所以如果需要的话，可以学习Java（这似乎可能因为iMacros非常有限）。

我的问题是，这些＆＃34;数据重新发送＆＃34;标签是如何工作的，因此我如何利用它们来实现我的刮擦目的？

此外，如果这是一个XY问题，请告诉我并建议更好的方法。

感谢阅读！

处理抓取的最简单方法是将页面视为一个大字符串（因为最终，它就是这样）。您可以在该字符串中搜索某些内容（例如href =）以获取链接。您还可以智能地假设a标签中的任何内容与链接相关并抓住它。

您真的不需要理解HTML，并且您不必了解页面或任何其他css或标记的工作方式，您只需要确定所需文本周围的可识别字符串组合类型。我会说这可能比使用IMacro更容易在Java中实现，并且可能更准确。

您可以处理它的另一种方法是将整个页面视为XML文档，这需要更多的HTML和XML知识。这...并不总是适用于HTML，特别是如果它更旧或形成不良，所以字符串方法更容易。您可以从存在的各种XML映射库中获得一些实用程序，但除此之外它与上面的类似。

刮痧问题（数据重新发送）

1 个答案: