应用错误收集

如何从网页上获取所有单词及其频率？

时间：2011-02-07 16:03:23

标签： java php perl web-crawler

我必须从网页和链接的其他页面获取所有单词及其频率。我是否必须使用任何网络爬虫？任何简单的开源解决方案？

3 个答案:

答案 0 :(得分：1)

开放放大应该适合你。

http://www.openamplify.com/

答案 1 :(得分：1)

httrack＆＃39; s %I（创建可搜索的索引）选项就是这样。

documentation page解释了这个问题，对不起，没有深层链接。跳转到句子片段

仍在测试中，此选项要求引擎

答案 2 :(得分：0)

在PHP中，您可能会获得网页内容（使用file_get_content()或curl），然后strip_tags()和str_word_count()