我有一种情况需要访问100多个网站来收集联系信息,然后在我自己的网站上输入。我想知道的是,如果我正确地编写程序或爬虫,可以获得所有这些信息。我猜这些信息将在非结构化的html中提供,然后我将不得不进行解析以使其结构化。有任何人有类似的经历这样做。也想对使用的语言提出意见。
答案 0 :(得分:1)
您正在寻找Web Scraper。一些谷歌搜索应该提供各种免费和商业产品,以解决您的问题。如果您收集的数据非常简单且结构合理,您可能不需要自己编写一个。
答案 1 :(得分:0)
尝试ruby(mechanize lib):
http://mechanize.rubyforge.org/mechanize/GUIDE_rdoc.html
例如:
agent.get('http://someurl.com/').search(".//p[@class='posted']")