如何从网页上获取所有单词及其频率?

时间:2011-02-07 16:03:23

标签: java php perl web-crawler

我必须从网页和链接的其他页面获取所有单词及其频率。我是否必须使用任何网络爬虫?任何简单的开源解决方案?

3 个答案:

答案 0 :(得分:1)

开放放大应该适合你。

http://www.openamplify.com/

答案 1 :(得分:1)

httrack' s %I(创建可搜索的索引)选项就是这样。

documentation page解释了这个问题,对不起,没有深层链接。跳转到句子片段

  

仍在测试中,此选项要求引擎

答案 2 :(得分:0)

在PHP中,您可能会获得网页内容(使用file_get_content()或curl),然后strip_tags()str_word_count()