应用错误收集

使用clojure来抓取具有动态内容的网页

时间：2012-12-25 13:40:11

标签： clojure web-scraping

出于学习目的，我正在尝试使用Clojure从以下site中抓取数据。

我想知道如何获取表“bm_center bm_dataTable”中的数据。

我遇到的挑战是此表的DOM在此页面的html源上不可用，因为它是在浏览器中动态生成的。

如何获取表的hml源？

我对网络编程知之甚少，但我愿意学习。预先感谢您的耐心等待。

1 个答案:

答案 0 :(得分：1)

DOM通常是浏览器中的东西。浏览器会下拉您在Clojure中看到的相同文本，然后构建用于呈现页面等的DOM ...

您可以手动操作文本，通过编写Clojure代码来提取您想要的内容。您可以使用JSoup之类的Java库从HTML中提取信息。标准Java库还附带一个HTML解析器，但我会避免它。它很难使用，并没有带来太多好处。