我有以下数据集:
A
Free
India
Torrent
Unlimited
Iphone
China
Box
Netflix
Kodi
Disney
Disney+
Norway
Linux
Windows
günstige
gratuit
uk
router
firestick
top
5
Samsung
chrome
Nokia
我要实现的目标:
Group A
1 Free
2 India
3 Torrent
4 Unlimited
5 Iphone
2 China
6 Box
7 Netflix
7 Kodi
7 Disney
7 Disney+
2 Norway
8 Linux
8 Windows
1 gratis
1 gratuit
2 uk
3 router
7 firestick
9 top
9 5
10 Samsung
11 chrome
10 Nokia
11 Opera
使用某种自然语言库或任何能够检测单词的相似性和类别的库,在每列A
上生成组。
例如-组1
用于free
,其中包含gratis
和gratuit
,这意味着在其他语言中是免费的。组2
包含国家/地区值,例如India
,Norway
,uk
等。组4
-这很棘手,因为即使我也无法将此单词分配给组。组7
拥有流媒体平台的项目,组11
具有Internet浏览器。
目标是要有一种方法可以将项目归类。由于数据集每分钟都在更新并且引入了新单词,因此我不能使用哪个组的硬编码值应包含哪个值,当然,将15万个单词编码成组并不是要走的路。
也许具有“未知”类别,它将包含无法为unlimited
之类的项目分配任何已知值的项目。
所以我要寻找的是关于如何解决该问题的建议,也许您知道图书馆会进行此类分类或自己遇到类似问题。
谢谢您的建议。