应用错误收集

时间：2013-01-31 16:59:49

标签： java flex web-scraping

是否有一个规程，框架或工具集，用于使用来自html页面的信息作为输入数据的一部分进行编程？类似于元搜索引擎的东西。你如何解析网页？

我更喜欢java或flex / flash，或某些阅读指针。

谢谢！

2013年2月7日更新

感谢您的回答！网络报废是我一直在寻找的术语！

从这篇文章http://jsoup.org/中找到了这个很棒的java库：Web scraping with Java。

寻找flex版本，我会在找到后立即更新。

答案 0 :(得分：0)

我认为你的问题有点模糊，无法获得好的答案，而且我自己没有Java / Flex经验，但是大多数语言都有库支持向有问题的资源发出HTTP请求（而且，很有可能，某种支持将HTML / XML解析为某种类型的数据结构，您可以从中提取数据。）

根据您尝试从中获取的内容，您可能只需对HTTP响应执行简单的字符串搜索即可。这基本上是@pablochan在推荐网页抓取的维基页面时推荐的内容。

请注意，某些服务/网站旨在混淆您对其数据进行页面抓取的尝试，并且可能确实将此类操作列为违反其服务条款的行为。如果您成功这样做但过于频繁地执行此操作，您可能会发现您的IP被阻止或采取其他类型的操作来阻止您这样做。

大多数静态网站都没有这样的保护措施，但很可能会提供大型服务。