Question

我的数据集中包含字符串数据：

$('[data-toggle=popover]').on('shown.bs.popover', function(){
            $('#addKeywordsBtn').on('click', function(){
                $.each($('.keywordCheckbox'), function(i, checkboxTag){
                    if(checkboxTag.checked == true){
                        console.log(checkboxTag);
                    }
                });
            });
        });

每个记录都有一个与之关联的类别，并且给定一个这样的字符串，我必须使用机器学习或深度学习方法来识别相应的类别。

我很困惑为了做到这一点需要采取什么方法。我的主要问题是，我应该保持字符串不变并使用字符串相似性函数，还是应该将字符串分解为不同的单词，然后对其进行计数向量化，然后从那里开始？

鉴于这种数据，只用一个字符串来预测课程，最好的方法是什么？我必须把它投入生产，所以我需要看一些可以很好地扩展的东西。我是ML新手，所以任何建议都会受到赞赏。感谢。

Answer 1

在我看来，你可以使用lstm来解决这个问题。长期短期记忆（LSTM）单位（或块）是递归神经网络（RNN）层的构建单位

这些LSTM将帮助我们捕获顺序信息，并且通常用于我们想要学习数据中的顺序模式的情况

您可以使用字符级别LSTM解码此问题。

在此，您必须传递LSTM单元格中文本的每个字符。在最后一步，您将拥有一个真正的标签类

您可以使用交叉熵损失功能。

https://machinelearningmastery.com/develop-character-based-neural-language-model-keras/

这将为您提供完整的想法

用于机器学习或深度学习的基于字符串的数据的数据转换

1 个答案: