从html页面提取重点内容

时间:2016-02-09 05:20:38

标签: parsing apache-tika

在HTML页面中,如何配置TIKA以仅从特定div获取内容。例如:

  <div id="1" class="content">...</div>
  <div id="2" class="content">...</div>
  <div id="3" class="new_content">...</div>

我想知道如何获取div id =&#34; 1&#34;和class =&#34; new_content&#34;

0 个答案:

没有答案