基于词汇频率表/分布构建搜索引擎?

时间:2013-03-20 13:08:42

标签: web-applications search-engine keyword frequency lexical-analysis

当涉及到很多网络开发专业知识时,我无疑是一个“n00b”,所以请耐心等待。

我对网站有一个想法,其中一部分涉及扫描特定网页,然后按频率(考虑上下文)构建“关键字”排名表,以便为所述网页构建“配置文件”。

我的问题是双重的:

A)哪种编程语言最适合此目的(快速,特别适合处理大量数据)。

B)我应该使用什么样的数据结构来创建这些频率表,以便快速有效地分析/与其他页面/表格进行比较?另外,我应该如何自己存储表格,以便我可以快速浏览它们并确定相关性?我基本上想要根据某些启发式和某些内容创建一个搜索引擎。

现在这个想法比我大,但我想解决它。

1 个答案:

答案 0 :(得分:1)

首先是合理的答案,然后是一些解释。

A)。任何语言。几乎任何编程语言都可以使用。 B)。所有类型的结构。这取决于具体任务。

计算机科学有一个领域叫做“数据挖掘”。尝试搜索这些关键字。有大量的系统和库,如SOLR,Mallet,Serene,RapidMiner,R。不同的库使用不同的语言。我建议从你最熟悉的那个开始。

也许首先阅读:http://en.wikipedia.org/wiki/Tf%E2%80%93idf