我正在抓取新闻网站并希望提取新闻标题,新闻摘要(第一段)等
我插入了webkit解析器代码,可以轻松地将网页导航为树。为了消除导航和其他非新闻内容,我采用文章的文本版本(减去html标签,webkit提供相同的api)。然后我运行diff算法比较来自同一网站的各种文章的文本,这导致类似的文本被删除。这给了我内容减去常见的导航内容等。
尽管采用了上述方法,但我的最终文本中仍然存在一些垃圾。这导致提取不正确的新闻摘要。错误率是10件中的5件,即50%。错误,如
你能
吗?建议提取纯内容的替代策略,
学习自然语言能否帮助从这些文章中提取正确的摘要?
您如何解决上述问题?
这些研究论文是否相同?
此致
Ankur Gupta
答案 0 :(得分:3)
您可以查看我在Google代码上的boilerpipe项目,并使用Google AppEngine上的实时网络应用程序(从那里链接)在您选择的网页上进行测试。
我正在研究这个领域,并撰写了一些关于HTML页面中内容提取/样板删除的论文。请参阅“使用浅文本功能进行锅炉板检测”,并在VideoLectures.net上观看相应的视频。本文应该让您对该领域的最新技术有一个很好的了解。
干杯,
基督教
答案 1 :(得分:2)
对于问题(1),我不确定。我以前没有这样做过。也许其中一个答案会有所帮助。
对于问题(2),摘要的自动创建不是一个发达的领域。它通常被称为“句子选择”,因为现在的典型方法是选择整个句子。
对于问题(3),从机器学习中创建摘要的基本方法是:
我最喜欢的机器学习参考是Tom Mitchell的Machine Learning。它列出了许多实现步骤(3)的方法。
对于问题(4),我确信有一些论文是因为我的顾问去年提到过,但我不知道从哪里开始,因为我不是该领域的专家。
答案 2 :(得分:0)
我不知道它是如何工作的,但请查看可读性。它完全符合您的要求。