我想要抓取一个页面,您可以在URL中传递变量并生成特定内容。所有内容都在一个巨大的HTML表格中。
我正在寻找一种编写脚本的方法,该脚本可以遍历180个不同的页面,从表格中的某些列中提取特定信息,进行一些数学运算,然后将它们写入.csv文件。这样我就可以对数据进行进一步的分析。
抓取网页,解析HTML然后将数据存储到.csv文件的最简单方法是什么?
我在python和PHP中做过类似的事情,解析HTML并不是最简单的事情,也不是最干净的事情。还有其他路线更容易吗?
答案 0 :(得分:1)
如果你有使用python的经验,我会推荐像BeautifulSoup这样的东西,或者在PHP中你可以使用PhPQuery。
一旦您知道如何使用HTML解析器,那么您可以创建一个“管道和过滤器”程序来进行数学运算并将其转储到csv文件。
有关Python解决方案的更多信息,请查看this question。