从非结构化文档中提取一些关键词,如租金,押金,负债等

时间:2019-02-21 09:51:08

标签: machine-learning

编写一种算法以从租赁协议文档中提取一些关键词,如租金,押金,负债等。我使用了“朴素贝叶斯分类器”,但是输出没有给出期望的输出: 我的训练数据如下: 火车= [ (“可退还的押金50000卢比,等于5个月”,“存款”), (“承租人支付一个月的预付租金出租人”,“担保”), (“从2019年3月1日开始的十一(11)个月”,“期限”), (“ 2019年2月15日开始,至2020年1月14日有效,”“开始日期”)]

以下代码未提供所需的关键字: classifier.classify(test_data_features)

请分享NLP中是否有任何库来完成此操作。

1 个答案:

答案 0 :(得分:1)

似乎您需要使用特定的NER(命名实体识别器)来解析非结构化文档。

您需要在其中将句子的每个单词标记为某些标签。根据周围的单词和上下文窗口,您训练有素的NER将能够为您提供所需的结果。

检查NER的Standford corenlp实现。