一个单词搜索网站的步骤是什么?

时间:2013-10-05 05:46:14

标签: java search search-engine web-crawler keyword-search

我想写一个单词搜索,它连接到一个特定的网站(巨大的网站),从用户那里获取单词,搜索网站并返回包含单词的字符串;这应该用java和applet编写我已经阅读了一些关于这方面的教程和问题,并且明白必须要做的是:

1.连接到网站并获取网站的内容并将其保存为字符串。(这应该通过网络浏览器完成,该网络浏览器将使用我自己的代码连接到网站并将内容保存为字符串+ jsoup库来解析html代码。)

2.将数据保存到数据库(在我的案例中为nosql数据库)。

3.索引数据库中的数据。

4.查询数据库以显示结果。

5.制作用于显示搜索结果的UI(我使用swing.japplet)。

现在我的问题是:

1.我是否正确理解了我必须采取的步骤?(如果不需要或不必要,请详细解释我)

2.是否有必要建立数据库?

注意:我想自己实现它,而不使用lucene,nutch,solr等现成的东西......

编辑:3个人告诉我applet不适合这样的东西,那么应该更换什么?

非常感谢你的帮助。

3 个答案:

答案 0 :(得分:0)

你应该看看使用Lucene,因为它完成了你想要的大部分内容。

你不应该使用小程序。

答案 1 :(得分:0)

对于小数据集,数据库应该足够了。像mysql这样的数据库附带full text search functions

对于更大的数据集,您可能需要考虑LuceneSolr

答案 2 :(得分:0)

这是实现这一目标的一种方式。另一种(更简单的)方法是使用现有的文本搜索/索引引擎,如Lucene / Solr。使用数据库技术重新实现“文本搜索/索引”轮的努力让我感到浪费,除非你有充分的技术理由这样做。

您确实需要某种数据库,因为动态索引网站根本不起作用。 Lucene将处理这个问题。

我认为您选择Java applet来构建UI是一个坏主意。还有其他技术可以提供更好或更好的结果......没有Java浏览器插件的安全风险。


最后,让您的网站可供搜索的另一种方法是让Google为您执行此操作。将您的网站内容编入索引,然后使用Google的搜索API。