我的数据集中包含字符串数据:
$('[data-toggle=popover]').on('shown.bs.popover', function(){
$('#addKeywordsBtn').on('click', function(){
$.each($('.keywordCheckbox'), function(i, checkboxTag){
if(checkboxTag.checked == true){
console.log(checkboxTag);
}
});
});
});
每个记录都有一个与之关联的类别,并且给定一个这样的字符串,我必须使用机器学习或深度学习方法来识别相应的类别。
我很困惑为了做到这一点需要采取什么方法。我的主要问题是,我应该保持字符串不变并使用字符串相似性函数,还是应该将字符串分解为不同的单词,然后对其进行计数向量化,然后从那里开始?
鉴于这种数据,只用一个字符串来预测课程,最好的方法是什么?我必须把它投入生产,所以我需要看一些可以很好地扩展的东西。我是ML新手,所以任何建议都会受到赞赏。感谢。
答案 0 :(得分:0)
在我看来,你可以使用lstm来解决这个问题。长期短期记忆(LSTM)单位(或块)是递归神经网络(RNN)层的构建单位
这些LSTM将帮助我们捕获顺序信息,并且通常用于我们想要学习数据中的顺序模式的情况
您可以使用字符级别LSTM解码此问题。
在此,您必须传递LSTM单元格中文本的每个字符。在最后一步,您将拥有一个真正的标签类
您可以使用交叉熵损失功能。
https://machinelearningmastery.com/develop-character-based-neural-language-model-keras/
这将为您提供完整的想法