Question

我有以下数据集：

A
Free
India
Torrent
Unlimited
Iphone
China
Box
Netflix
Kodi
Disney
Disney+
Norway
Linux
Windows
günstige
gratuit
uk
router
firestick
top
5
Samsung
chrome
Nokia

我要实现的目标：

Group     A
1         Free
2         India
3         Torrent
4         Unlimited
5         Iphone
2         China
6         Box
7         Netflix
7         Kodi
7         Disney
7         Disney+
2         Norway
8         Linux
8         Windows
1         gratis         
1         gratuit
2         uk
3         router
7         firestick
9         top
9         5
10        Samsung
11        chrome
10        Nokia
11        Opera

使用某种自然语言库或任何能够检测单词的相似性和类别的库，在每列A上生成组。

例如-组1用于free，其中包含gratis和gratuit，这意味着在其他语言中是免费的。组2包含国家/地区值，例如India，Norway，uk等。组4-这很棘手，因为即使我也无法将此单词分配给组。组7拥有流媒体平台的项目，组11具有Internet浏览器。

目标是要有一种方法可以将项目归类。由于数据集每分钟都在更新并且引入了新单词，因此我不能使用哪个组的硬编码值应包含哪个值，当然，将15万个单词编码成组并不是要走的路。

也许具有“未知”类别，它将包含无法为unlimited之类的项目分配任何已知值的项目。

所以我要寻找的是关于如何解决该问题的建议，也许您知道图书馆会进行此类分类或自己遇到类似问题。

谢谢您的建议。

根据类别/单词对值进行分组

0 个答案: