应用错误收集

时间：2011-10-28 20:37:08

标签： nlp web-crawler data-mining nltk

我一般对通过抓取网站进行数据挖掘感兴趣，但我从来没有能够找到关于我真正想要实现的流程的大量文档。我非常热衷于编写一组基本规则来定义如何解析页面，然后在出错时训练工具。

假设我要从餐馆网站解析菜单。我想创建一个工具，允许我编写一组规则，通常显示菜单项+价格的位置。然后，我可以运行该工具并告诉它哪些菜单项正确解析，哪些错误。然后该工具将从这些修正中“学习”，下次运行时，我会得到更好的结果。

我看了一下NLTK工具包，我想知道解决这个问题的最佳方法是使用NLP工具，如NLTK。任何人都可以指出我找到书籍的正确方向和（理想情况下）可以帮助我入门的图书馆吗？ NLP是走的路吗？谢谢！

答案 0 :(得分：2)

我非常热衷于编写一套定义如何解析页面的基本规则

“解析页面”究竟是什么意思？解析页面中的句子？做结构化information extraction？

然后该工具将从这些修正中“学习”，下次运行时，我会得到更好的结果。

这是active learning的问题，这是非常先进的东西。你需要一个机器学习工具包;哪一个取决于你想要做什么：制作解析树或提取显着信息。我相信NLTK有一些随机解析器支持。