考虑聚类前文本间距离的差异,如何将文本数据转换为数值

时间:2016-03-21 23:18:32

标签: normalization transformation text-mining embedding

问题是如何将文本数据转换为带权重的数字。 例如,让我说我有这些价值观:"宝马","梅赛德斯"和" FIAT"。 正常的转换是给他们数字1,2和3:

如果我想测量这些值之间的距离,那么"宝马"和" MERCEDES"还有1"宝马"和" FIAT"虽然这个结果不是所需要的,因为(例如)" MERCEDES"和"宝马"应该小于宝马"之间的那个。和" FIAT"因为他们属于相同的定价类别,而法定更便宜。

如果它是一小部分范例,那么对它们进行分类并赋予它们权重会很容易,但是如果您有数千个汽车品牌(例如)知道没有与每个品牌相关的特定属性或字段时该怎么办关于称重自动化的价格(或类别或任何事项)的提示。

1 个答案:

答案 0 :(得分:0)

您可以使用例如MDS将数据投影到低维矢量空间近似,产生所需的点距离。

真正的问题是如何首先获得有意义的距离矩阵。