Scikit-学习混合文本和数字数据

时间:2017-01-10 13:56:01

标签: python csv machine-learning scikit-learn

我将数据作为CSV提供给我,格式如下(这是一个样本行,几万个之一)

 var client = new PricingService.CalculationServiceClient();

每个文本字符串类似于这种字符串;数字相同。

我正在寻找一种基于与文本相关性来预测数字的方法。

在scikit-learn中有没有办法做到这一点?

1 个答案:

答案 0 :(得分:0)

您最好的选择是在字符串上生成一些聚合函数,并将其用作预测剩余值的功能。简单聚合函数的示例可以是每个字母的出现次数,长度,首字母,最后一个字母,最常见的字母,可能每对字母之间的过渡次数等。

如果没有特定领域的背景知识,这是我能想到的最好的。