标签: python pandas machine-learning scikit-learn nlp
我正在为我的AI项目设置印度宪法不同ACT的目录。我有一个超过50000条记录的csv文件。
我想根据其中使用的单词及其缩写将相似的ACT分组/分类。
例如。如果我搜索印度刑罚代码,它将显示
i)I.PC
ii)印度刑法典
iii)印度刑法《机动车技术法案》
iv)印度刑罚代码
v)I.P.C(警察)
vi)1980年的印度刑法典
vii)刑事诉讼法印度刑法典
csv中的ACT有许多不同的变体。
我尝试了拆分,但操作不正常。请为我提供一个代码。