应用错误收集

时间：2012-03-21 18:33:47

标签： web-scraping

我想要抓取一个页面，您可以在URL中传递变量并生成特定内容。所有内容都在一个巨大的HTML表格中。

我正在寻找一种编写脚本的方法，该脚本可以遍历180个不同的页面，从表格中的某些列中提取特定信息，进行一些数学运算，然后将它们写入.csv文件。这样我就可以对数据进行进一步的分析。

抓取网页，解析HTML然后将数据存储到.csv文件的最简单方法是什么？

我在python和PHP中做过类似的事情，解析HTML并不是最简单的事情，也不是最干净的事情。还有其他路线更容易吗？

答案 0 :(得分：1)

如果你有使用python的经验，我会推荐像BeautifulSoup这样的东西，或者在PHP中你可以使用PhPQuery。

一旦您知道如何使用HTML解析器，那么您可以创建一个“管道和过滤器”程序来进行数学运算并将其转储到csv文件。

有关Python解决方案的更多信息，请查看this question。