Question

我有一种情况需要访问100多个网站来收集联系信息，然后在我自己的网站上输入。我想知道的是，如果我正确地编写程序或爬虫，可以获得所有这些信息。我猜这些信息将在非结构化的html中提供，然后我将不得不进行解析以使其结构化。有任何人有类似的经历这样做。也想对使用的语言提出意见。

Answer 1

您正在寻找Web Scraper。一些谷歌搜索应该提供各种免费和商业产品，以解决您的问题。如果您收集的数据非常简单且结构合理，您可能不需要自己编写一个。

Answer 2

尝试ruby（mechanize lib）：

例如：

agent.get('http://someurl.com/').search(".//p[@class='posted']")