Question

我正在使用Stormcrawler 1.15，ElasticSearch 7.5，并按照本教程进行操作以启动SC：https://www.youtube.com/watch?v=KTerugU12TY

在我的crawler-conf.yaml中，我有：

  # indexer.md.filter: "someKey=aValue"
  indexer.url.fieldname: "url"
  indexer.text.fieldname: "content"
  indexer.canonical.name: "canonical"
  indexer.md.mapping:
  - parse.title=title
  - parse.keywords=keywords
  - parse.description=description
  - domain=domain

这表明我已经有了描述和关键字，但是到目前为止，我在“内容”索引的文档中输入了以下字段：URL，内容，域，标题。例如：

{
  "_index": "content",
  "_type": "_doc",
  "_id": "c31104689b7ab4e8152f70b755049e7060da3457f06d64993667df28f7be6811",
  "_score": 1,
  "_source": {
    "content": "Startseite Gesetze / Verordnungen Aktualitätendienst [...]",
    "url": "http://www.gesetze-im-internet.de/markeng_8bek_00-03-27/index.html",
    "domain": "gesetze-im-internet.de",
    "title": "MarkenG§8Bek 00-03-27 - nichtamtliches Inhaltsverzeichnis"
  }
}

但是我想获得更多信息，例如关键字，描述，创建日期，抓取日期。甚至是摘要。

我怎么得到这些？

此搜寻器还能获得其他哪些值/字段？

如何在ES中获得它们？

我听说有一种方法可以使SC与tika一起使用，以更好地解析html和pdf，这样一来，也许我可以从爬网的页面中获取更多的数据和元数据。但是我仍然不知道该怎么做。对此的指南/教程会很好。

Answer 1

确保将解析过滤器正确配置为here。可以将搜寻器配置或扩展为提取几乎所有内容，有关现有解析过滤器的列表，请参见WIKI。

与JSOUP相比，Tika模块在HTML文档方面做得更好，但可以处理其他mime类型。请参阅该模块的自述文件，以了解如何使用它。

我可以从Stormcrawler获得哪些值/字段？

1 个答案: