使用clojure来抓取具有动态内容的网页

时间:2012-12-25 13:40:11

标签: clojure web-scraping

出于学习目的,我正在尝试使用Clojure从以下site中抓取数据。

我想知道如何获取表“bm_center bm_dataTable”中的数据。

我遇到的挑战是此表的DOM在此页面的html源上不可用,因为它是在浏览器中动态生成的。

如何获取表的hml源?

我对网络编程知之甚少,但我愿意学习。预先感谢您的耐心等待。

1 个答案:

答案 0 :(得分:1)

DOM通常是浏览器中的东西。浏览器会下拉您在Clojure中看到的相同文本,然后构建用于呈现页面等的DOM ...

您可以手动操作文本,通过编写Clojure代码来提取您想要的内容。您可以使用JSoup之类的Java库从HTML中提取信息。标准Java库还附带一个HTML解析器,但我会避免它。它很难使用,并没有带来太多好处。