获取网站字数的最佳方法是什么?或者是网站的一部分?

时间:2013-05-15 02:57:50

标签: javascript python html web-scraping

非常简单,我只想找一个从给定网站或网站部分提取单词频率的简单方法。

我也有兴趣计算整个网站中两个给定单词之间的平均距离。距离单位是单词。

我问的是这个问题,因为我坦率地说找不到太多导致执行这项任务的直觉的信息。我没有任何网络抓取或刮擦任何经验。

谢谢(我之前问了这个问题,但结果不是很好)

1 个答案:

答案 0 :(得分:1)

您可以尝试使用Scrapy。它是用于抓取网站的非常强大的工具,但可能需要正则表达式和XPath的知识。请尝试关注tutorial