我正在使用crawler4j和Jsoup开发一个抓取网络的应用程序。我需要使用JSoup解析一个网页,并检查它是否有zip文件,pdf / doc和mp3 / mov文件可供下载。
对于zip文件,我做了以下工作:
Elements zip = doc.select("a[href\$=.zip]")
println "No of zip files is " + zip.size()
此代码正确告诉我页面中有多少个zip文件。我不知道如何使用JSoup计算所有音频文件或文档文件。任何帮助表示赞赏。感谢。
答案 0 :(得分:2)
使用相同的方法,我怀疑它会是这样的:
Elements docs = doc.select("a[href\$=.doc]")
println "No of doc files is " + docs.size()
Elements mp3s = doc.select("a[href\$=.mp3]")
println "No of mp3 files is " + mp3s.size()
实际上它只是一个选择器,其中href属性以某个文件扩展名结束。