用于机器学习或深度学习的基于字符串的数据的数据转换

时间:2018-06-02 18:26:06

标签: string machine-learning deep-learning classification

我的数据集中包含字符串数据:

$('[data-toggle=popover]').on('shown.bs.popover', function(){
            $('#addKeywordsBtn').on('click', function(){
                $.each($('.keywordCheckbox'), function(i, checkboxTag){
                    if(checkboxTag.checked == true){
                        console.log(checkboxTag);
                    }
                });
            });
        });

每个记录都有一个与之关联的类别,并且给定一个这样的字符串,我必须使用机器学习或深度学习方法来识别相应的类别。

我很困惑为了做到这一点需要采取什么方法。我的主要问题是,我应该保持字符串不变并使用字符串相似性函数,还是应该将字符串分解为不同的单词,然后对其进行计数向量化,然后从那里开始?

鉴于这种数据,只用一个字符串来预测课程,最好的方法是什么?我必须把它投入生产,所以我需要看一些可以很好地扩展的东西。我是ML新手,所以任何建议都会受到赞赏。感谢。

1 个答案:

答案 0 :(得分:0)

在我看来,你可以使用lstm来解决这个问题。长期短期记忆(LSTM)单位(或块)是递归神经网络(RNN)层的构建单位

这些LSTM将帮助我们捕获顺序信息,并且通常用于我们想要学习数据中的顺序模式的情况

您可以使用字符级别LSTM解码此问题。

在此,您必须传递LSTM单元格中文本的每个字符。在最后一步,您将拥有一个真正的标签类

您可以使用交叉熵损失功能。

https://machinelearningmastery.com/develop-character-based-neural-language-model-keras/

这将为您提供完整的想法