刮网页&格式化它

时间:2011-03-10 09:27:53

标签: web-scraping

我需要一些关于如何解决这个问题的指示:

我有超过10K +简单的HTML网页,它们都具有相同的格式。当我说“相同的格式”时,我的意思是它们都会在开头有相同的h1标签,但是有不同的文本,然后是一个表,然后是一个链接,等等。所以,如果你看到的话,基本的HTML 10K +页面的骨架是相同的,但只是文本会不断变化。

我有办法遍历所有这10K页面。但是,我不知道如何将该页面中的特定文本复制到XLS / CSV列中。一旦我能够实现这一点,我将把这个excel表导入MySQL并进行进一步处理。

我在一定程度上了解PHP。所以,这就是我能想到的:

$html = file_get_contents("http://www.SomeWebsite.com/");

然后我可以使用一些RegEx来操纵我需要的数据。但是我不知道如何处理重定向。

这是我能想到的,但有什么更好的吗?可能是现有的工具还是更好的脚本语言?

2 个答案:

答案 0 :(得分:0)

您可以使用HTQL来提取html内容。它有Python和COM接口。见:http://htql.net/

提取< h1>标签,只需使用“< h1>”作为查询。

答案 1 :(得分:0)

您可以使用PHP执行此操作,但我建议使用XPath而不是正则表达式。 我个人使用Python lxmlthis webscraping library