我们有一个研究出版物的dspace存储库,gsa通过网络爬行进行索引,即从主页开始并按照所有链接。
我认为使用连接器从sitemap.xml文件提交索引以进行索引可能会更有效率。然后,gsa只需要索引并重新抓取站点地图上的网址,并可以忽略网站的结果。
gsa文档中的建议是,这实际上不是连接器的目标,因为内容都可以通过Web爬网发现。
您怎么看?
谢谢, 乔治娜。
答案 0 :(得分:0)
您可以从/ bin目录“dspace generate-sitemaps”生成站点地图。它将生成一个sitemaps目录,其中包含指向dspace中所有项目的链接。
输出示例:
<html><head><title>URL List</title></head><body><ul><li><a href="http://localhost:8080//handle/123456789/1">http://localhost:8080//handle/123456789/1</a></li>
<li><a href="http://localhost:8080//handle/123456789/2">http://localhost:8080//handle/123456789/2</a></li>
<li><a href="http://localhost:8080//handle/123456789/3">http://localhost:8080//handle/123456789/3</a></li>
<li><a href="http://localhost:8080//handle/123456789/5">http://localhost:8080//handle/123456789/5</a></li>
</ul></body></html>
答案 1 :(得分:0)
您可以轻松创建GSA&#34; Feed&#34;列出要抓取的网址。但是,因为你的&#34;关注&#34;模式必须包含您网站的主机名,抓取工具将跟随您Feed中网页链接的所有网页。
如果您真的只想索引&#34;网站地图&#34;那么你应该看看写Adaptor (4.x)。然后,您将负责编写逻辑以解析您的sitemap.xml文件,以提取您要抓取的URL。
答案 2 :(得分:0)
这可能已经过时了(所以我不确定它是否仍然有效),但是有一个python连接器的示例将解析sitemap.xml并将其作为内容源或元数据源发送。 这里有2个链接可以帮助您 https://github.com/google/gsa-admin-toolkit/blob/master/connectormanager/sitemap_connector.py
https://github.com/google/gsa-admin-toolkit/wiki/ConnectorManagerDocumentation
如果有的话,如果您编写自己的Connector 3.x或Adapter 4.x,这将让您了解要实现的逻辑