街道识别,严重程度的扣除

时间:2012-09-17 10:33:08

标签: nlp artificial-intelligence

我正在尝试分析一组短语,我不知道“自然语言处理”究竟是如何帮助我的,或者是否有人可以与我分享他的知识。

目标是提取街道和本地化。通常这种信息不会以结构化的方式呈现给读者,并且很难找到解析它的方法。我有两个主要目标。

首先提取街道本身。据我所知,NLP库可以帮助我标记一个短语并执行一个分析,这将获得名词(例如)。但是街道在哪里开始,它在哪里结束?我假设我需要将该分析与街道数据库进行比较,但我不知道这是最佳方法。

另外,我想减去严重程度,例如车祸。我假设唯一的方法是通过短语中的当前单词来固定一些启发式(例如,如果已故单词出现+ 100)。我是对的吗?

一如既往地感谢! :)

1 个答案:

答案 0 :(得分:3)

你想要做的第一部分("首先是街道本身的提取。[...]但是街道开始的地方和结束的地方?")是一个子领域NLP称为Named Entity Recognition。有许多库可以做到这一点。我自己喜欢用于Python的NLTK。根据您的选择,我假设街道名称数据库对于训练识别器非常有用,但您可以使用默认语料库获得合理的结果。请阅读NLP库的文档。

第二部分,识别事故严重程度,首先可以视为一个独立的问题。您可以将原始单词或其词性标记作为要素,并在其上训练分类器(SVM,HMM,KNN,您的选择)。你需要一个相当大的,正确标记的训练集;根据你的描述,我不确定你有吗?

"我假设唯一的方法是通过短语"中的现有单词来建立一些启发式方法。很模糊,可能意味着很多事情。根据下一句话,您可能会认为扫描预定义的关键字列表是唯一的方法。在这种情况下,不,请参阅上面的段落。

一旦您将两个部件都工作,您可以将它们组合起来并计算每条街道的事故数量和严重程度。使用一些地理编码库,您甚至可以推广到社区或城市。另一个挑战是检测同义词(" Smith Str" vs" John Smith Street")和同音异义词(" Smith Street"伦敦vs#34; Smith Street& #34;在利兹)。