我正在尝试从站点提取数据以构建数据库。
我想从" h2#1"中提取数据。在" h2#2",之前的行 并将其放入Element中,以便我可以更轻松地处理数据。
图片中显示的数据位于div =" left"
的div中我试图提取数据的页面:
http://koryaku.fullbokko.drecom.jp/quests/sp/eiketsu_sinka_no_hihou/netureinokishi/#1
答案 0 :(得分:1)
试试这个CSS选择器:
h2#1 ~ *:not(h2#2 ~ *):not(h2#2)
http://try.jsoup.org/~T29QSXFbJqwJx2a_If4qUeD1cnU
h2#1 ~ * /* Select any node preceded by h2#1 ... */
:not(h2#2 ~ *) /* ... and not preceded by h2#2 ... */
:not(h2#2) /* ... and exclude h2#2 itself ! */
在Jsoup 1.8.3上测试