特征提取

时间:2016-08-28 15:08:26

标签: python machine-learning

假设我已经获得了包含标题的数据集: id,query,product_title,product_description,品牌,颜色,相关性。

只有ID和相关性采用数字格式,而其他所有内容均由单词和数字组成。相关性是产品相对于给定查询的相关性或排名。例如 - query =" abc"和product_title =" product_x" - >相关性=" 2.3"

在训练集中,所有这些字段都被填充但是在测试集中,没有给出相关性,我必须通过使用一些机器学习算法来找出。我在确定在这样的问题中应该使用哪些功能时遇到问题?例如,我应该在这里使用TF-IDF。我可以从这些数据集中获得哪些其他功能?

此外,如果您可以向我推荐任何专门用于“特征提取”的书籍/资源。这个话题会很棒。我总是在这个阶段感到困扰。提前致谢。

1 个答案:

答案 0 :(得分:1)

我认为没有书可以提供您需要的答案,因为特征提取是直接与正在解决的问题和现有数据相关的阶段,您将找到的唯一提示是创建描述数据的功能你有。在过去,我的工作问题与您的类似,我使用的一些功能是:

  • 产品标题中的查询字数。
  • 产品说明中的查询字数。
  • n-igram计数
  • TF-IDF
  • 余弦相似度

所有这些都经过一些预处理,比如将所有文本都带到上(或下)的情况,词干,标准词典规范化。

同样,这取决于问题和数据,你不会找到直接的答案,就像发布一个问题:"我需要开发一个产品销售系统,我该怎么做?有没有书?" 。你会找到有关编程和软件工程的书籍,但你找不到一本关于开发特定系统的书,你必须运用一般知识和创造力来制定你的解决方案。