是否有一个规程,框架或工具集,用于使用来自html页面的信息作为输入数据的一部分进行编程?类似于元搜索引擎的东西。你如何解析网页?
我更喜欢java或flex / flash,或某些阅读指针。
谢谢!
2013年2月7日更新
感谢您的回答!网络报废是我一直在寻找的术语!
从这篇文章http://jsoup.org/中找到了这个很棒的java库:Web scraping with Java。
寻找flex版本,我会在找到后立即更新。
答案 0 :(得分:0)
我认为你的问题有点模糊,无法获得好的答案,而且我自己没有Java / Flex经验,但是大多数语言都有库支持向有问题的资源发出HTTP请求(而且,很有可能,某种支持将HTML / XML解析为某种类型的数据结构,您可以从中提取数据。)
根据您尝试从中获取的内容,您可能只需对HTTP响应执行简单的字符串搜索即可。这基本上是@pablochan在推荐网页抓取的维基页面时推荐的内容。
请注意,某些服务/网站旨在混淆您对其数据进行页面抓取的尝试,并且可能确实将此类操作列为违反其服务条款的行为。如果您成功这样做但过于频繁地执行此操作,您可能会发现您的IP被阻止或采取其他类型的操作来阻止您这样做。
大多数静态网站都没有这样的保护措施,但很可能会提供大型服务。