使用连接器使用sitemap.xml对内容进行爬网

时间:2015-08-13 04:05:42

标签: google-search-appliance dspace

我们有一个研究出版物的dspace存储库,gsa通过网络爬行进行索引,即从主页开始并按照所有链接。

我认为使用连接器从sitemap.xml文件提交索引以进行索引可能会更有效率。然后,gsa只需要索引并重新抓取站点地图上的网址,并可以忽略网站的结果。

gsa文档中的建议是,这实际上不是连接器的目标,因为内容都可以通过Web爬网发现。

您怎么看?

谢谢, 乔治娜。

3 个答案:

答案 0 :(得分:0)

您可以从/ bin目录“dspace generate-sitemaps”生成站点地图。它将生成一个sitemaps目录,其中包含指向dspace中所有项目的链接。

输出示例:

   <html><head><title>URL List</title></head><body><ul><li><a href="http://localhost:8080//handle/123456789/1">http://localhost:8080//handle/123456789/1</a></li>
    <li><a href="http://localhost:8080//handle/123456789/2">http://localhost:8080//handle/123456789/2</a></li>
    <li><a href="http://localhost:8080//handle/123456789/3">http://localhost:8080//handle/123456789/3</a></li>
    <li><a href="http://localhost:8080//handle/123456789/5">http://localhost:8080//handle/123456789/5</a></li>
</ul></body></html>

答案 1 :(得分:0)

您可以轻松创建GSA&#34; Feed&#34;列出要抓取的网址。但是,因为你的&#34;关注&#34;模式必须包含您网站的主机名,抓取工具将跟随您Feed中网页链接的所有网页。

如果您真的只想索引&#34;网站地图&#34;那么你应该看看写Adaptor (4.x)。然后,您将负责编写逻辑以解析您的sitemap.xml文件,以提取您要抓取的URL。

答案 2 :(得分:0)

这可能已经过时了(所以我不确定它是否仍然有效),但是有一个python连接器的示例将解析sitemap.xml并将其作为内容源或元数据源发送。 这里有2个链接可以帮助您 https://github.com/google/gsa-admin-toolkit/blob/master/connectormanager/sitemap_connector.py

https://github.com/google/gsa-admin-toolkit/wiki/ConnectorManagerDocumentation

如果有的话,如果您编写自己的Connector 3.x或Adapter 4.x,这将让您了解要实现的逻辑