我一般对通过抓取网站进行数据挖掘感兴趣,但我从来没有能够找到关于我真正想要实现的流程的大量文档。我非常热衷于编写一组基本规则来定义如何解析页面,然后在出错时训练工具。
假设我要从餐馆网站解析菜单。我想创建一个工具,允许我编写一组规则,通常显示菜单项+价格的位置。然后,我可以运行该工具并告诉它哪些菜单项正确解析,哪些错误。然后该工具将从这些修正中“学习”,下次运行时,我会得到更好的结果。
我看了一下NLTK工具包,我想知道解决这个问题的最佳方法是使用NLP工具,如NLTK。任何人都可以指出我找到书籍的正确方向和(理想情况下)可以帮助我入门的图书馆吗? NLP是走的路吗?谢谢!
答案 0 :(得分:2)
我非常热衷于编写一套定义如何解析页面的基本规则
“解析页面”究竟是什么意思?解析页面中的句子?做结构化information extraction?
然后该工具将从这些修正中“学习”,下次运行时,我会得到更好的结果。
这是active learning的问题,这是非常先进的东西。你需要一个机器学习工具包;哪一个取决于你想要做什么:制作解析树或提取显着信息。我相信NLTK有一些随机解析器支持。