我正在尝试从网页上删除噪音。但由于我是新手,所以我不知道从哪里开始。 所以,如果有人能给我任何关于如何做的信息,那将非常有帮助。
噪音 - 链接,版权声明等。
Sudhanshu
答案 0 :(得分:3)
Boilerpipe看起来就像你要求的那样:http://code.google.com/p/boilerpipe/
samppipe库提供了检测和删除的算法 主要文本周围的剩余“混乱”(样板,模板) 网页内容。
图书馆已经为常见任务提供了具体的策略(for 例如:新闻文章提取)也可以轻松扩展 个别问题设置。