仅使用Scrapy提取内容以创建WordClouds

时间:2019-06-05 14:07:16

标签: python-3.x web-scraping scrapy word-cloud

我正在寻找一种智能解决方案,仅提取一系列不同网页的主要信息。构建wordcloud时,总是遇到必须定义一系列不同停用词(例如“链接”,“联系人”等)的问题,以便仅显示实际内容。现在,我正在寻找一种方法,以免每次我刮擦一个新网站时都创建一个停用词列表。

我的想法是,某些html标签往往比其他标签具有更多的内容。这是预处理中过滤的好方法还是您还有其他想法?

谢谢您的帮助。

0 个答案:

没有答案