我正在使用Norconex HTTP收集器和导入器。我在哪里可以找到有关标记器可用字段的信息。 I.E.会在这里的字段:
<tagger class="com.norconex.importer.handler.tagger.impl.KeepOnlyTagger">
<fields>id,title,keywords,description,content,document.reference, document.contentType</fields>
</tagger>
我专门寻找网页的状态代码(200,404等)和网址的来源(所以,如果网址为http://www.example.com/page/welcome我想要{{3 }})
我在网上找不到任何信息,而且我一直在搜索
答案 0 :(得分:1)
我知道这个答案来得很晚,但是我们的HTTP Collector社区支持站点是here。
Merge(Leftarray, Rightarray, Array) {
nL <- length(Leftarray)
nR <- length(Rightarray)
i <- j <- k <- 0
while (i < nL && j < nR) {
if (Leftarray[i] <= Rightarray[j])
Array[k++] <- Leftarray[i++]
else
Array[k++] <- Rightarray[j++]
}
while (i < nL) {
Array[k++] <- Leftarray[i++]
}
while (j < nR) {
Array[k++] <- Rightarray[j++]
}
}
Mergesort(Array) {
n <- length(Array)
if (n < 2)
return
mid <- n / 2
Leftarray <- array of size (mid)
Rightarray <- array of size (n-mid)
for i <- 0 to mid-1
Leftarray[i] <- Array[i]
for i <- mid to n-1
Right[i-mid] <- Array[mid]
Mergesort(Leftarray)
Mergesort(Rightarray)
Merge(Leftarray, Rightarray)
}
是导入器模块的一部分,您可以在其站点上找到其文档:https://www.norconex.com/collectors/importer/configuration#tbl-tagger
打开this Github ticket,其中涉及捕获站点域。它讨论了几种方法。一种是像这样使用KeepOnlyTagger
:
ReplaceTagger
无效的URL不会发送到您的...
<importer>
...
<preParseHandlers>
...
<tagger class="com.norconex.importer.handler.tagger.impl.ReplaceTagger">
<replace fromField="document.reference" toField="MyCustomDomainField"
regex="true" wholeMatch="true">
<fromValue>https?://(.*?)(/.*|:.*|$)</fromValue>
<toValue>$1</toValue>
</replace>
</tagger>
...
</preParseHandlers>
...
</importer>
...
,但是您可以使用事件监听器捕获所有HTTP状态代码。您可以使用URLStatusCrawlerEventListener来做到这一点。