在Groovy中使用JSoup获取mp3 / pdf文件

时间:2014-07-07 15:39:41

标签: grails groovy jsoup crawler4j

我正在使用crawler4j和Jsoup开发一个抓取网络的应用程序。我需要使用JSoup解析一个网页,并检查它是否有zip文件,pdf / doc和mp3 / mov文件可供下载。

对于zip文件,我做了以下工作:

Elements zip = doc.select("a[href\$=.zip]")
        println "No of zip files is " + zip.size() 

此代码正确告诉我页面中有多少个zip文件。我不知道如何使用JSoup计算所有音频文件或文档文件。任何帮助表示赞赏。感谢。

1 个答案:

答案 0 :(得分:2)

使用相同的方法,我怀疑它会是这样的:

Elements docs = doc.select("a[href\$=.doc]")
        println "No of doc files is " + docs.size() 

Elements mp3s = doc.select("a[href\$=.mp3]")
        println "No of mp3 files is " + mp3s.size() 

实际上它只是一个选择器,其中href属性以某个文件扩展名结束。