如何自动化数据输入过程

时间:2011-04-18 04:35:21

标签: html-parsing information-retrieval

我有一种情况需要访问100多个网站来收集联系信息,然后在我自己的网站上输入。我想知道的是,如果我正确地编写程序或爬虫,可以获得所有这些信息。我猜这些信息将在非结构化的html中提供,然后我将不得不进行解析以使其结构化。有任何人有类似的经历这样做。也想对使用的语言提出意见。

2 个答案:

答案 0 :(得分:1)

您正在寻找Web Scraper。一些谷歌搜索应该提供各种免费和商业产品,以解决您的问题。如果您收集的数据非常简单且结构合理,您可能不需要自己编写一个。

答案 1 :(得分:0)

尝试ruby(mechanize lib):

http://mechanize.rubyforge.org/mechanize/GUIDE_rdoc.html

例如:

agent.get('http://someurl.com/').search(".//p[@class='posted']")