我正在做文本分类,以检测在线新闻文章中的政治倾向。问题在于这些文章的媒体属性非常嘈杂,例如媒体标语行,文章版权,出版物信息,作者/记者姓名,相关文章链接等,并且主要信息和噪音之间没有分隔符( html标签已被删除)。 我已经阅读了几篇有关如何清除已爬网的在线文章中不相关信息的论文。但是,他们所有人都使用HTML标签在收集阶段进行清理过程。我的研究纯粹是自然语言处理,因此不在我的项目范围内。
我已经研究了有关基于IDF和信息增益来删除停用词的方法,也使用了离群值检测技术(基于距离,基于聚类)。但是我认为他们无法解决我的问题。 有什么建议可以自动删除新闻中那些无关的内容吗? 感谢您的任何评论和答案。