创建用于查找和匹配用户输入的网页爬网程序

时间:2015-10-02 18:46:41

标签: java php python html mysql

我创建了一个包含很多页面的网站,每页都是一篇示例文章。主页是带有搜索字段的页面。我试图设计一个用户可以输入单词的系统,当他们点击“搜索”时,包含带有样本文章的页面中搜索到的单词的多个paragaph会被加载到页面上

我14岁并且已经编程了大约2年,任何人都可以向我解释我完成此任务所需的编程语言/技术并提供有关如何完成任务的建议

我到目前为止所有的网页都有文章和我用PHP制作的自定义搜索页面。有什么建议吗?

1 个答案:

答案 0 :(得分:1)

编程语言对于解决问题的方式并不重要。您可以使用您熟悉的语言来实现它。

有两种基本方法可以解决问题:

  1. 使用抓取工具创建在不同网页上找到的字词索引 使用索引来查找搜索到的单词
    1. 当用户输入搜索表达式时,您开始抓取页面并查看是否找到了搜索表达式
    2. 当然,这两种解决方案都有不同的(dis)优势

      例如: 在1)你需要进行初始爬行(并在页面更改时稍后更新)

      在1)中,您需要将爬网结果存储在某种数据库中

      1)您将收到最准确的搜索结果

      2)您不需要数据库/数据存储区

      2)在显示最终结果列表

      之前,您必须等到所有页面都被搜索到