应用错误收集

我正在研究我的机器学习模型的功能，以及我拥有的数据。我的数据包含很多textdata，所以我想知道如何从中提取有价值的功能。与我之前的观点相反，这通常包括使用词汇表示或类似word2vec的表示：（http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction）

因为我对这个主题的理解是有限的，所以我不明白为什么我不能先分析文本以获得数值。（例如：textBlob.sentiment = https://textblob.readthedocs.io/en/dev/，google Clouds Natural Language = https://cloud.google.com/natural-language/）

是否存在此问题，或者我可以将这些值用作我的机器学习模型的功能吗？

提前感谢所有帮助！

当然，您可以使用情绪分析转换文本输入单个数字，然后将此数字用作机器学习模型中的一项功能。这种方法没有错。

问题是您要从文本数据中提取哪种信息。因为情绪分析将文本输入转换为-1到1之间的数字，并且数字表示文本的正面或负面。例如，您可能需要客户的情绪信息。评论一家餐厅，以衡量他们的满意度。在这种情况下，可以使用情绪分析来预处理文本数据。

但同样，情绪分析只能给出关于正文或负面文本的概念。您可能希望对文本数据进行聚类，并且在这种情况下情绪信息无用，因为它不提供有关文本相似性的任何信息。因此，诸如word2vec或bag-of-words的其他方法将用于在那些任务中表示文本数据。因为这些算法提供单个数字的文本实例的向量表示。

总之，该方法取决于您需要从特定任务的数据中提取哪种信息。

使用Text Sentiment作为机器学习模型的功能？

1 个答案: