我可以使用命名实体识别来识别Intranet页面内容吗?

时间:2010-10-23 00:10:28

标签: nlp nltk

我是自然语言处理的新手,我想通过创建一个简单的项目来学习更多知识。 NLTK被建议在NLP中很受欢迎,所以我会在我的项目中使用它。

以下是我想做的事情:

  • 我想扫描我们公司的内部网页;大约3K页
  • 我想根据某些标准对这些页面的内容进行解析和分类,例如:人力资源,工程,公司页面等......

从我到目前为止所读到的内容,我可以使用命名实体识别来完成此操作。我可以为每个页面类别描述实体,训练NLTK解决方案并运行每个页面来确定类别。

这是正确的做法吗?我很欣赏任何方向和想法...

由于

1 个答案:

答案 0 :(得分:1)

看起来你想做text/document classification,这与命名实体识别并不完全相同,其目标是识别文本中的任何命名实体(专有名称,地点,机构等)。但是,在有限域中进行文本分类时,专有名称可能是非常好的功能,例如,可能将具有头部工程师名称的页面归类为工程。

NLTK的书有a chapter on basic text classification