使用来自html页面的信息作为输入数据的一部分进行编程?

时间:2013-01-31 16:59:49

标签: java flex web-scraping

是否有一个规程,框架或工具集,用于使用来自html页面的信息作为输入数据的一部分进行编程?类似于元搜索引擎的东西。你如何解析网页?

我更喜欢java或flex / flash,或某些阅读指针。

谢谢!

2013年2月7日更新

感谢您的回答!网络报废是我一直在寻找的术语!

从这篇文章http://jsoup.org/中找到了这个很棒的java库:Web scraping with Java

寻找flex版本,我会在找到后立即更新。

1 个答案:

答案 0 :(得分:0)

我认为你的问题有点模糊,无法获得好的答案,而且我自己没有Java / Flex经验,但是大多数语言都有库支持向有问题的资源发出HTTP请求(而且,很有可能,某种支持将HTML / XML解析为某种类型的数据结构,您可以从中提取数据。)

根据您尝试从中获取的内容,您可能只需对HTTP响应执行简单的字符串搜索即可。这基本上是@pablochan在推荐网页抓取的维基页面时推荐的内容。

请注意,某些服务/网站旨在混淆您对其数据进行页面抓取的尝试,并且可能确实将此类操作列为违反其服务条款的行为。如果您成功这样做但过于频繁地执行此操作,您可能会发现您的IP被阻止或采取其他类型的操作来阻止您这样做。

大多数静态网站都没有这样的保护措施,但很可能会提供大型服务。