我有一个来自行业的数据集,其中包含以下列:名称和标签。 名称和标签包含以下数据:
Name Label
final_assembly_number, product name,
pressure_sensor_serial_number, order number
measurement_switch sensor serial number.
我有大约800个参数和5-6个类似文件的列表,所有名称在数据集中都是唯一的,而一半以上的标签是唯一的,但很少重复50次,20次,6和2时间和休息都是独一无二的。
我所要做的就是,我必须找到“名称”和“标签”之间的相似性,以及由于重复的标签很少,有多少个名称与同一“标签”相关联 例如:1个标签与20个名称相关联,很多就像1个标签与1个名称相关联。
所有数据完全基于工业数据,不包含任何有意义的句子。
在我尝试使用word2vec实现它之前,但似乎无法使用word2vec算法,对此我需要一些建议,在这种情况下是否可以使用w2v或任何其他ML算法?