应用错误收集

我正在寻找一种智能解决方案，仅提取一系列不同网页的主要信息。构建wordcloud时，总是遇到必须定义一系列不同停用词（例如“链接”，“联系人”等）的问题，以便仅显示实际内容。现在，我正在寻找一种方法，以免每次我刮擦一个新网站时都创建一个停用词列表。

我的想法是，某些html标签往往比其他标签具有更多的内容。这是预处理中过滤的好方法还是您还有其他想法？

谢谢您的帮助。