根据类别/单词对值进行分组

时间:2020-01-02 11:55:44

标签: python pandas nlp grouping categories

我有以下数据集:

A
Free
India
Torrent
Unlimited
Iphone
China
Box
Netflix
Kodi
Disney
Disney+
Norway
Linux
Windows
günstige
gratuit
uk
router
firestick
top
5
Samsung
chrome
Nokia

我要实现的目标:

Group     A
1         Free
2         India
3         Torrent
4         Unlimited
5         Iphone
2         China
6         Box
7         Netflix
7         Kodi
7         Disney
7         Disney+
2         Norway
8         Linux
8         Windows
1         gratis         
1         gratuit
2         uk
3         router
7         firestick
9         top
9         5
10        Samsung
11        chrome
10        Nokia
11        Opera

使用某种自然语言库或任何能够检测单词的相似性和类别的库,在每列A上生成组。

例如-组1用于free,其中包含gratisgratuit,这意味着在其他语言中是免费的。组2包含国家/地区值,例如IndiaNorwayuk等。组4-这很棘手,因为即使我也无法将此单词分配给组。组7拥有流媒体平台的项目,组11具有Internet浏览器。

目标是要有一种方法可以将项目归类。由于数据集每分钟都在更新并且引入了新单词,因此我不能使用哪个组的硬编码值应包含哪个值,当然,将15万个单词编码成组并不是要走的路。

也许具有“未知”类别,它将包含无法为unlimited之类的项目分配任何已知值的项目。

所以我要寻找的是关于如何解决该问题的建议,也许您知道图书馆会进行此类分类或自己遇到类似问题。

谢谢您的建议。

0 个答案:

没有答案