我是自然语言处理的新手,我想通过创建一个简单的项目来学习更多知识。 NLTK被建议在NLP中很受欢迎,所以我会在我的项目中使用它。
以下是我想做的事情:
从我到目前为止所读到的内容,我可以使用命名实体识别来完成此操作。我可以为每个页面类别描述实体,训练NLTK解决方案并运行每个页面来确定类别。
这是正确的做法吗?我很欣赏任何方向和想法...
由于
答案 0 :(得分:1)
看起来你想做text/document classification,这与命名实体识别并不完全相同,其目标是识别文本中的任何命名实体(专有名称,地点,机构等)。但是,在有限域中进行文本分类时,专有名称可能是非常好的功能,例如,可能将具有头部工程师名称的页面归类为工程。