标签: java php perl web-crawler
我必须从网页和链接的其他页面获取所有单词及其频率。我是否必须使用任何网络爬虫?任何简单的开源解决方案?
答案 0 :(得分:1)
开放放大应该适合你。
http://www.openamplify.com/
答案 1 :(得分:1)
httrack' s %I(创建可搜索的索引)选项就是这样。
%I
documentation page解释了这个问题,对不起,没有深层链接。跳转到句子片段
仍在测试中,此选项要求引擎
答案 2 :(得分:0)
在PHP中,您可能会获得网页内容(使用file_get_content()或curl),然后strip_tags()和str_word_count()