标签: html solr hyperlink nutch
我是nutch和solr的新手。 我使用nutch来抓取网站,我使用solr索引这些网页。 是否有一种方法可以检索solr数据库中链接的内容?
例如
由于
Danilo的
答案 0 :(得分:0)
页面文本存储在名为“content”的字段中。请注意,这不是原始页面,而是页面的解析版本。可搜索的内容应该出现在这里,但不包括元标记和javascript。