是否可以编写程序来获取在线搜索结果?

时间:2011-12-26 09:46:43

标签: javascript c++ python database

是否可以编写程序来获取在线搜索结果?

具体来说,我想要来自http://portal.uspto.gov/external/portal/pair

的数据

示例数据是应用程序编号,例如9078871,10595401

是的,他们有CAPTCHA,我愿意手工输入。问题是我有超过500个申请号,我该怎么办?我有更简单的方法吗?

提前致谢!此外,搜索引擎似乎是用javascript编写的,但我不太确定。

1 个答案:

答案 0 :(得分:0)

当然有可能,为什么不可以。

我不知道你的知识差距会使你能够完成这项任务,因为你没有指出这一点。

一步一步......

  1. 分析网站的代码,了解如何生成链接和内容。
  2. 以编程方式下载源代码
  3. 生成指向搜索结果的超链接
  4. 解析相关数据(我总是用一些丑陋的正则表达式来完成)
  5. 我在你提到的网站上挖了一点,真正可以说的是它不会是1小时的动作,因为它是用Java编写的(JSP; Java Server Pages)。

    我到目前为止发现的是,您首先必须编写函数getDossier的等效函数,或使用Webbrowser控件使您能够手动调用javascript以获取搜索结果。然后你可以简单地将一些正则表达式一起烘焙,从而将数据解析出来。

相关问题