如何开始提取信息?

时间:2010-09-28 00:07:19

标签: nlp information-extraction

在信息提取方面,我是新手。在过去的几天里,我读了很多学术论文并订购了一本关于NLP的书。我想弄清楚如何构建一个类似FlipDog.com的系统(希望不是从头开始)。他们从60,000多家公司网站上提取职位空缺。我该如何开始?

我愿意学习任何编程语言。有没有人使用过Mallet / GATE / MinorThird或RoadRunner?理想情况下,我希望能够使用特定于我的域的数据集训练系统,并让它根据该数据集提取信息。你会为此目的推荐哪个平台?

谢谢!

1 个答案:

答案 0 :(得分:3)

提取工作机会的最快方法是使用dapper.net(来自网站的网络scraping服务)。您可以非常轻松地使用可视化编辑器教授精确的数据提取数据。在您拥有表格的目标网站上,它可以很好地工作。

要了解信息提取,我建议从lingpipe开始。它是一个用于信息抽取的Java框架,因此您无需学习框架的体系结构特定功能,例如Gate或Apache UIMA。在lingpipe网站上,你会发现很多教程,可以帮助你学习各种信息提取方法。之后我建议学习Gate和UIMA。

如果你想要实现这样一个网站,你还需要学习如何使用网络爬虫框架(例如nutch),网络搜索引擎(yahoo, google, bing)和信息检索引擎(如as,apache lucene)在提取的数据之上提供搜索服务。

更新

对于python,最好从:http://www.nltk.org/

开始