编写一种算法以从租赁协议文档中提取一些关键词,如租金,押金,负债等。我使用了“朴素贝叶斯分类器”,但是输出没有给出期望的输出: 我的训练数据如下: 火车= [ (“可退还的押金50000卢比,等于5个月”,“存款”), (“承租人支付一个月的预付租金出租人”,“担保”), (“从2019年3月1日开始的十一(11)个月”,“期限”), (“ 2019年2月15日开始,至2020年1月14日有效,”“开始日期”)]
以下代码未提供所需的关键字: classifier.classify(test_data_features)
请分享NLP中是否有任何库来完成此操作。
答案 0 :(得分:1)
似乎您需要使用特定的NER(命名实体识别器)来解析非结构化文档。
您需要在其中将句子的每个单词标记为某些标签。根据周围的单词和上下文窗口,您训练有素的NER将能够为您提供所需的结果。
检查NER的Standford corenlp实现。