应用错误收集

大家好，

我们使用带有elasticsearch的StormCrawler来制作我们主页的索引，该索引包含＆＃34;旧页面＆＃34;和＆＃34;新页面＆＃34;。我的问题简而言之：如果两个页面A（旧），B（新）链接到页面X，如何将元数据从B传递到X？

我的问题：我们一步一步地重新启动了我们的主页。因此，我们有时可以通过旧的html页面，只通过新的html页面或两种方式访问pdf文件。

对于＆＃34;按顺序排列＆＃34;目的我们必须标记新的html页面可以访问的所有pdf文件。所以我们插入＆＃34; newHomepage = true＆＃34;到seeds.txt和＆＃34; metadata.transfer / -newHomepage＆＃34; to＆＃34; crawler-conf.yaml＆＃34;：很好： - ）

但是对于可以从旧版本访问的pdf文件！新的html页面，我们现在有一个竞争条件：如果我们的pdf文件是＆＃34; DISCOVERED＆＃34;从旧页面，此信息（newHomepage = false）位于状态索引中，无法覆盖。（StatusUpdaterBolt不会覆盖文档，IndexerBolt默认会覆盖）。

使思考更加复杂：在我们的例子中，在文件传递之前，PDF的URL（在html页面上）被重定向两次。

因此，从我的观点来看，我们有两种可能性：

启动爬虫两次。首先，我们只索引新页面（以及所有可访问的pdf文件），然后我们将旧页面编入索引。
- - ＆GT;在抓取工具启动后更改的新网页出现问题
商店＆＃34; outbound_links＆＃34;并用它们来设置＆＃34; newHomepage＆＃34;独立于爬虫
- - ＆GT;索引

有任何建议或其他想法吗？

祝你好运卡斯滕

使用metadata.transfer和N：M关系抓取小主页

1 个答案: