标签: javascript python html web-scraping
非常简单,我只想找一个从给定网站或网站部分提取单词频率的简单方法。
我也有兴趣计算整个网站中两个给定单词之间的平均距离。距离单位是单词。
我问的是这个问题,因为我坦率地说找不到太多导致执行这项任务的直觉的信息。我没有任何网络抓取或刮擦任何经验。
谢谢(我之前问了这个问题,但结果不是很好)
答案 0 :(得分:1)
您可以尝试使用Scrapy。它是用于抓取网站的非常强大的工具,但可能需要正则表达式和XPath的知识。请尝试关注tutorial。