标签: python-3.x web-scraping scrapy word-cloud
我正在寻找一种智能解决方案,仅提取一系列不同网页的主要信息。构建wordcloud时,总是遇到必须定义一系列不同停用词(例如“链接”,“联系人”等)的问题,以便仅显示实际内容。现在,我正在寻找一种方法,以免每次我刮擦一个新网站时都创建一个停用词列表。
我的想法是,某些html标签往往比其他标签具有更多的内容。这是预处理中过滤的好方法还是您还有其他想法?
谢谢您的帮助。