我正在研究我的机器学习模型的功能,以及我拥有的数据。我的数据包含很多textdata,所以我想知道如何从中提取有价值的功能。与我之前的观点相反,这通常包括使用词汇表示或类似word2vec的表示:(http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction)
因为我对这个主题的理解是有限的,所以我不明白为什么我不能先分析文本以获得数值。 (例如:textBlob.sentiment = https://textblob.readthedocs.io/en/dev/,google Clouds Natural Language = https://cloud.google.com/natural-language/)
是否存在此问题,或者我可以将这些值用作我的机器学习模型的功能吗?
提前感谢所有帮助!
答案 0 :(得分:0)
当然,您可以使用情绪分析转换文本输入单个数字,然后将此数字用作机器学习模型中的一项功能。这种方法没有错。
问题是您要从文本数据中提取哪种信息。因为情绪分析将文本输入转换为-1到1之间的数字,并且数字表示文本的正面或负面。例如,您可能需要客户的情绪信息。评论一家餐厅,以衡量他们的满意度。在这种情况下,可以使用情绪分析来预处理文本数据。
但同样,情绪分析只能给出关于正文或负面文本的概念。您可能希望对文本数据进行聚类,并且在这种情况下情绪信息无用,因为它不提供有关文本相似性的任何信息。因此,诸如word2vec或bag-of-words的其他方法将用于在那些任务中表示文本数据。因为这些算法提供单个数字的文本实例的向量表示。
总之,该方法取决于您需要从特定任务的数据中提取哪种信息。