搜索引擎的blog_website(搜索内部链接)

时间:2016-04-13 23:51:26

标签: search-engine blogs code-search-engine

我为我的博客创建了一个非常基本的搜索选项,并根据主题和关键词生成结果,但我正在寻找的是某些文章我必须添加链接,所以如果我的搜索可以通过那些链接基本上是外部网站,例如,如果我指的是其他人博客的更多信息,然后搜索从那里找到。这可能吗?而且我不想参加GCSE。 提前致谢。这将是非常有帮助的。

再次感谢。

1 个答案:

答案 0 :(得分:0)

是的,可以编写机器人来从链接抓取外部网站。我做了一个。它抓取了100K +网站网址。所以是的,可以创建一个可以从您的博客抓取链接。

要创建搜索引擎,您需要了解一些内部工作方式......

搜索机器人的工作方式如下:

  1. 抓取工具抓取页面。这一步很简单,因为它使用curl
  2. 解析器将HTML拆分为多个部分,以便可以从页面中提取数据。这有2个子组件,其中......

    一个。从您要捕获的页面中提取任何数据&然后将该数据保存到数据库中。

    湾提取链接&将它们放回爬行队列中。这会创建一个无限循环,因此你的机器人永远不会停止爬行...(除非其他人的格式错误的URL崩溃了,这种情况会发生很多。所以请准备好经常修复它。)

  3. Indexer 创建查找索引,将关键字映射到网页的内容。它有2个子组件,因为它......

    一个。创建Forward Index,将每个文档映射到该文档内的关键字。

    doc1 | bird, aviary, robin, dove, blue jay, cardinal
    doc2 | birds, bird watching, binoculars
    doc3 | cats, eat, birds
    doc4 | cats, generally, don't, like, water, nor, neighborhood, dogs
    doc5 | dog, shows, look, fun
    

    湾从Forward Index创建一个Inverted Index,它会反转索引。这允许用户通过关键字&然后搜索脚本查找&建议用户可能想要查看哪些文档。像这样......

    bird | doc1, doc2
    cat  | doc3, doc4
    dog  | doc4, doc5
    
  4. 搜索表单的工作方式如下:

    1. 搜索表单会向用户显示HTML输入框。
    2. 搜索脚本将搜索反向索引,以查找要在搜索引擎结果页中显示的文档链接。
    3. S earch E ngine R 结果 P 年龄(是的,SERP是搜索的实际行业首字母缩略词发动机结果页面)。这将显示搜索结果链接列表。您可以按照自己喜欢的方式设计样式。它不必看起来像谷歌,微软的Bing和雅虎的引擎。
    4. <强>示例:

      正在搜索:

      "bird" returns links to "doc1, doc2"
      "cat"  returns links to "doc3, doc4"
      "dog"  returns links to "doc4, doc5"
      

      祝你的博客建立搜索引擎好运!