标签: nutch
我想使用Apache Nutch抓取此网站:https://511.org/alerts/traffic/incidents。该网页已动态加载ajax内容。如果我使用默认配置抓取它,Nutch只会带来页眉和页脚,并且动态加载的内容会丢失。我正在使用Nutch 1.14。
答案 0 :(得分:0)
使用Nutch 1.14,您可以使用Nutch Selenium或Nutch Interactive Selenium插件来抓取动态加载元素的网页。