Nutch - 如何使用自己的网址将html页面拆分为多个页面?

时间:2014-11-21 13:12:47

标签: parsing solr web-crawler nutch

我有一个页面(http://www.example.com/content),其中包含多个块

 <div>
 <h1 id="titleOne">First title</h1>
 Here is custom content
 <h1 id="titleTwo">Second title</h1>
 Here is custom content for part 2
 </div>

我想将此页面编入索引,就像2个不同的页面一样,这些页面在网址上有所不同,并且包含来自&lt; h1&gt;的文本。另一个&lt; h1&gt;元件。

示例:

文件1:http://www.example.com/content#titleOne

文件2:http://www.example.com/content#titleTwo

0 个答案:

没有答案