以编程方式查询网站的最佳方式

时间:2012-01-25 17:51:31

标签: html web

棘手的问题我可能会说这可能被认为是不道德的,但在这里:

以编程方式查询网站的最佳方式是什么?换句话说,假设有某种搜索引擎,你想以编程/自动方式给它查询(即无需输入),然后提取结果。假设绝对没有API,那么就是网络界面。我能做到的最好的方法是什么?

我们需要它进行一些研究工作,到目前为止,该网站的API尚未公开。

谢谢!

3 个答案:

答案 0 :(得分:1)

cURL总是很老套的screen scraping

答案 1 :(得分:0)

然后编写自己的api。 没什么大不了的,用你想要的查询来调用searchresultpage 然后检查DOM以获得结果,保存您需要的内容,然后使用不同的查询重新开始。 使用一些php serverscript和一个数据库很容易,但它也适用于本地脚本。 只要你有一个DOMInspector或者至少可以搜索regexpressions。

因为不道德的部分我不会给出任何代码, 但是要提示搜索不存在的API并在搜索中添加“php”,您可能会发现一些文件可以作为满足您需求的指南

答案 2 :(得分:0)

我抬头看屏幕(我不知道这是技术术语)并找到HTMLUnit。看起来很有希望。