我为我的博客创建了一个非常基本的搜索选项,并根据主题和关键词生成结果,但我正在寻找的是某些文章我必须添加链接,所以如果我的搜索可以通过那些链接基本上是外部网站,例如,如果我指的是其他人博客的更多信息,然后搜索从那里找到。这可能吗?而且我不想参加GCSE。 提前致谢。这将是非常有帮助的。
再次感谢。
答案 0 :(得分:0)
是的,可以编写机器人来从链接抓取外部网站。我做了一个。它抓取了100K +网站网址。所以是的,可以创建一个可以从您的博客抓取链接。
要创建搜索引擎,您需要了解一些内部工作方式......
搜索机器人的工作方式如下:
解析器将HTML拆分为多个部分,以便可以从页面中提取数据。这有2个子组件,其中......
一个。从您要捕获的页面中提取任何数据&然后将该数据保存到数据库中。
湾提取链接&将它们放回爬行队列中。这会创建一个无限循环,因此你的机器人永远不会停止爬行...(除非其他人的格式错误的URL崩溃了,这种情况会发生很多。所以请准备好经常修复它。)
Indexer 创建查找索引,将关键字映射到网页的内容。它有2个子组件,因为它......
一个。创建Forward Index,将每个文档映射到该文档内的关键字。
doc1 | bird, aviary, robin, dove, blue jay, cardinal
doc2 | birds, bird watching, binoculars
doc3 | cats, eat, birds
doc4 | cats, generally, don't, like, water, nor, neighborhood, dogs
doc5 | dog, shows, look, fun
湾从Forward Index创建一个Inverted Index,它会反转索引。这允许用户通过关键字&然后搜索脚本查找&建议用户可能想要查看哪些文档。像这样......
bird | doc1, doc2
cat | doc3, doc4
dog | doc4, doc5
搜索表单的工作方式如下:
<强>示例:强>
正在搜索:
"bird" returns links to "doc1, doc2"
"cat" returns links to "doc3, doc4"
"dog" returns links to "doc4, doc5"
祝你的博客建立搜索引擎好运!