我是一个完整的机器学习初学者,请原谅我的一般性问题。
我尝试将列名称从随机数据集映射到已知数据集的列。例如,列名称' image_link'将需要匹配相同列名称可能是的随机数据集'图像链接'然后另一个可能是' img_url'。
我有一个关于每个列名
的不同变体的大型数据集我相信机器学习可以帮助解决这个问题并开始研究这个问题。我用python进行了一些机器学习,主要是线性回归,我认为它不适合这个问题。
我已经通过谷歌做了很多研究,看看我是否能得到类似的东西的任何例子,但我找不到多少。任何人都可以帮助我,并建议这是否是我应该使用机器学习解决的问题,如果有的话,是否有任何特定的机器学习技术可能适合这个问题所以我知道我的研究方向。
任何帮助都将不胜感激。
编辑**
经过一番研究后,我觉得分类器可能是使用SVM或朴素贝叶斯的方式吗?
我也创建了一个非常基本的数据集,但是准备这种数据进行处理的最佳方法是什么?
--------------------------------------------------
| **Category** | **Term** |
--------------------------------------------------
| id | SKU |
--------------------------------------------------
| id | id |
--------------------------------------------------
| id | productID |
--------------------------------------------------
| link | productLink |
--------------------------------------------------
| link | URL |
--------------------------------------------------
| link | link |
--------------------------------------------------
| image_large | Image |
--------------------------------------------------
| image_large | ImageMedium |
--------------------------------------------------
| image_large | image_link |
--------------------------------------------------
| image_thumb | ImageSmall |
--------------------------------------------------
| image_thumb | Image |
--------------------------------------------------
| image_thumb | image link |
--------------------------------------------------
答案 0 :(得分:0)
我认为您可以使用Levenshtein distance来衡量单词和短语之间的差异或距离。 python和R中有很多实现。您可以将unkwon列名称分配给更接近或类似规则的已知密钥。
您也可以查看here
答案 1 :(得分:0)
如果您拥有(或可以创建)一个训练集,将这些“野生”字段名称的许多示例映射到您想要将其映射到的标准字段名称,则还可以实施机器学习解决方案(受监督的多类文本分类)。在您的情况下,“野生”字段名称将是您的预测变量,而标准字段名称将是您要预测的目标字段。
Here是python / sklearn中的一个简单实现,但是只是Google“ 监督的多类文本分类”,我相信您会发现很多教程和解释会有所帮助