自然语言处理/文本结构分析的起点

时间:2009-08-31 16:06:25

标签: parsing nlp text-processing

我需要解析&处理一大堆半结构化文本(基本上是法律文件 - 法律文本,对它们的补遗,条约,法官的决定......)。我要做的最基本的事情是提取有关子部分结构的信息 - 章节,文章,副标题,......以及一些元数据。我的问题是,是否有人可以指出这种类型的文本处理的起点,因为我确信已经有很多研究,但我发现主要是解析具有严格语法的东西(如代码)或完全自由格式的文本(如谷歌试图在网页上做)。我想如果我掌握了正确的关键词,我会在谷歌和我的期刊数据库中取得更大的成功。感谢。

2 个答案:

答案 0 :(得分:1)

natural language toolkit可能是一个有趣的开始,并且在自然语言处理的所有领域拥有充足的资源。它可能比你需要的语言更专注。

另一种选择是去一些解析器生成器库(通常用于代码),它不是那么严格(即允许你在需要时忽略大量的文本)。在python中,我建议pyparsing。在another answer中,我展示了一个简单的例子,说明当你想忽略任意文本时它可以做些什么。

答案 1 :(得分:0)

之前从未这样做,但如果我要去,我肯定会考虑ANTLR。它是一个非常受欢迎的项目,很可能有你选择的语言的端口。