应用错误收集

自然语言处理/文本结构分析的起点

时间：2009-08-31 16:06:25

标签： parsing nlp text-processing

我需要解析＆amp;处理一大堆半结构化文本（基本上是法律文件 - 法律文本，对它们的补遗，条约，法官的决定......）。我要做的最基本的事情是提取有关子部分结构的信息 - 章节，文章，副标题，......以及一些元数据。我的问题是，是否有人可以指出这种类型的文本处理的起点，因为我确信已经有很多研究，但我发现主要是解析具有严格语法的东西（如代码）或完全自由格式的文本（如谷歌试图在网页上做）。我想如果我掌握了正确的关键词，我会在谷歌和我的期刊数据库中取得更大的成功。感谢。

2 个答案:

答案 0 :(得分：1)

natural language toolkit可能是一个有趣的开始，并且在自然语言处理的所有领域拥有充足的资源。它可能比你需要的语言更专注。

另一种选择是去一些解析器生成器库（通常用于代码），它不是那么严格（即允许你在需要时忽略大量的文本）。在python中，我建议pyparsing。在another answer中，我展示了一个简单的例子，说明当你想忽略任意文本时它可以做些什么。

答案 1 :(得分：0)

之前从未这样做，但如果我要去，我肯定会考虑ANTLR。它是一个非常受欢迎的项目，很可能有你选择的语言的端口。