当涉及到很多网络开发专业知识时,我无疑是一个“n00b”,所以请耐心等待。
我对网站有一个想法,其中一部分涉及扫描特定网页,然后按频率(考虑上下文)构建“关键字”排名表,以便为所述网页构建“配置文件”。
我的问题是双重的:
A)哪种编程语言最适合此目的(快速,特别适合处理大量数据)。
B)我应该使用什么样的数据结构来创建这些频率表,以便快速有效地分析/与其他页面/表格进行比较?另外,我应该如何自己存储表格,以便我可以快速浏览它们并确定相关性?我基本上想要根据某些启发式和某些内容创建一个搜索引擎。
现在这个想法比我大,但我想解决它。
答案 0 :(得分:1)
首先是合理的答案,然后是一些解释。
A)。任何语言。几乎任何编程语言都可以使用。 B)。所有类型的结构。这取决于具体任务。
计算机科学有一个领域叫做“数据挖掘”。尝试搜索这些关键字。有大量的系统和库,如SOLR,Mallet,Serene,RapidMiner,R。不同的库使用不同的语言。我建议从你最熟悉的那个开始。