应用错误收集

时间：2009-11-08 15:42:05

标签： html artificial-intelligence nlp html-content-extraction text-extraction

我正在抓取新闻网站并希望提取新闻标题，新闻摘要（第一段）等

我插入了webkit解析器代码，可以轻松地将网页导航为树。为了消除导航和其他非新闻内容，我采用文章的文本版本（减去html标签，webkit提供相同的api）。然后我运行diff算法比较来自同一网站的各种文章的文本，这导致类似的文本被删除。这给了我内容减去常见的导航内容等。

尽管采用了上述方法，但我的最终文本中仍然存在一些垃圾。这导致提取不正确的新闻摘要。错误率是10件中的5件，即50％。错误，如

你能

吗？

此致

Ankur Gupta

答案 0 :(得分：3)

您可以查看我在Google代码上的boilerpipe项目，并使用Google AppEngine上的实时网络应用程序（从那里链接）在您选择的网页上进行测试。

我正在研究这个领域，并撰写了一些关于HTML页面中内容提取/样板删除的论文。请参阅“使用浅文本功能进行锅炉板检测”，并在VideoLectures.net上观看相应的视频。本文应该让您对该领域的最新技术有一个很好的了解。

干杯，

基督教

答案 1 :(得分：2)

对于问题（1），我不确定。我以前没有这样做过。也许其中一个答案会有所帮助。

对于问题（2），摘要的自动创建不是一个发达的领域。它通常被称为“句子选择”，因为现在的典型方法是选择整个句子。

对于问题（3），从机器学习中创建摘要的基本方法是：

我最喜欢的机器学习参考是Tom Mitchell的Machine Learning。它列出了许多实现步骤（3）的方法。

对于问题（4），我确信有一些论文是因为我的顾问去年提到过，但我不知道从哪里开始，因为我不是该领域的专家。

答案 2 :(得分：0)

我不知道它是如何工作的，但请查看可读性。它完全符合您的要求。