Question

我需要一些关于如何解决这个问题的指示：

我有超过10K +简单的HTML网页，它们都具有相同的格式。当我说“相同的格式”时，我的意思是它们都会在开头有相同的h1标签，但是有不同的文本，然后是一个表，然后是一个链接，等等。所以，如果你看到的话，基本的HTML 10K +页面的骨架是相同的，但只是文本会不断变化。

我有办法遍历所有这10K页面。但是，我不知道如何将该页面中的特定文本复制到XLS / CSV列中。一旦我能够实现这一点，我将把这个excel表导入MySQL并进行进一步处理。

我在一定程度上了解PHP。所以，这就是我能想到的：

$html = file_get_contents("http://www.SomeWebsite.com/");

然后我可以使用一些RegEx来操纵我需要的数据。但是我不知道如何处理重定向。

这是我能想到的，但有什么更好的吗？可能是现有的工具还是更好的脚本语言？

Answer 1

您可以使用HTQL来提取html内容。它有Python和COM接口。见：http://htql.net/

提取＆lt; h1＆gt;标签，只需使用“＆lt; h1＆gt;”作为查询。

Answer 2

您可以使用PHP执行此操作，但我建议使用XPath而不是正则表达式。我个人使用Python lxml和this webscraping library。