出于学习目的,我正在尝试使用Clojure从以下site中抓取数据。
我想知道如何获取表“bm_center bm_dataTable”中的数据。
我遇到的挑战是此表的DOM在此页面的html源上不可用,因为它是在浏览器中动态生成的。
如何获取表的hml源?
我对网络编程知之甚少,但我愿意学习。预先感谢您的耐心等待。
答案 0 :(得分:1)
DOM通常是浏览器中的东西。浏览器会下拉您在Clojure中看到的相同文本,然后构建用于呈现页面等的DOM ...
您可以手动操作文本,通过编写Clojure代码来提取您想要的内容。您可以使用JSoup之类的Java库从HTML中提取信息。标准Java库还附带一个HTML解析器,但我会避免它。它很难使用,并没有带来太多好处。