我正在使用Searcharoo.NET使用特定语言抓取网站“testsite.com/en”。有一个“testsite.com/fr”,“testsite.com/us”等等。后来我想索引每个网站上的页面,以便可以搜索,但我希望将不同的语言分开。
问题在于,当searcharoo开始在testsite.com/en上抓取时,它还会对其他语言(如testsite.com/fr)的网页编制索引。有没有办法防止这种情况发生?我认为我可以限制抓取工具只向前搜索或在某些页面上停止,但是没有从searcharoo找到关于该主题的任何文档。
非常感谢,谢谢!
答案 0 :(得分:1)
请看一下一个人写的以下博客:
http://draganbl.blogspot.com/2011/04/how-do-you-use-searcharoo-library-to.html
您似乎无法按照自己的意愿行事,但可能会为每种语言设置“爬虫/蜘蛛”。我的回答看起来很模糊,但也许它可以让你朝着一个方向前进。