应用错误收集

假设我已经获得了包含标题的数据集： id，query，product_title，product_description，品牌，颜色，相关性。

只有ID和相关性采用数字格式，而其他所有内容均由单词和数字组成。相关性是产品相对于给定查询的相关性或排名。例如 - query =＆＃34; abc＆＃34;和product_title =＆＃34; product_x＆＃34; - ＆GT;相关性=＆＃34; 2.3＆＃34;

在训练集中，所有这些字段都被填充但是在测试集中，没有给出相关性，我必须通过使用一些机器学习算法来找出。我在确定在这样的问题中应该使用哪些功能时遇到问题？例如，我应该在这里使用TF-IDF。我可以从这些数据集中获得哪些其他功能？

此外，如果您可以向我推荐任何专门用于“特征提取”的书籍/资源。这个话题会很棒。我总是在这个阶段感到困扰。提前致谢。

我认为没有书可以提供您需要的答案，因为特征提取是直接与正在解决的问题和现有数据相关的阶段，您将找到的唯一提示是创建描述数据的功能你有。在过去，我的工作问题与您的类似，我使用的一些功能是：

所有这些都经过一些预处理，比如将所有文本都带到上（或下）的情况，词干，标准词典规范化。

同样，这取决于问题和数据，你不会找到直接的答案，就像发布一个问题：＆＃34;我需要开发一个产品销售系统，我该怎么做？有没有书？＆＃34; 。你会找到有关编程和软件工程的书籍，但你找不到一本关于开发特定系统的书，你必须运用一般知识和创造力来制定你的解决方案。