如何基于单词(Python中的缩写)将50000个记录的csv文件中的相似句子分组?

时间:2019-04-23 05:13:47

标签: python pandas machine-learning scikit-learn nlp

我正在为我的AI项目设置印度宪法不同ACT的目录。我有一个超过50000条记录的csv文件。

我想根据其中使用的单词及其缩写将相似的ACT分组/分类。

例如。如果我搜索印度刑罚代码,它将显示

i)I.PC

ii)印度刑法典

iii)印度刑法《机动车技术法案》

iv)印度刑罚代码

v)I.P.C(警察)

vi)1980年的印度刑法典

vii)刑事诉讼法印度刑法典

csv中的ACT有许多不同的变体。

我尝试了拆分,但操作不正常。请为我提供一个代码。

0 个答案:

没有答案