我希望开发一种机器学习算法来解析一个句子并识别其中的各个部分。这就是我的意思:
考虑句子' 向我展示在没有电的情况下打开风扇的程序'。我想将这句话分成:
命令:'展示'
行动'打开粉丝'
条件:'当没有电时
我计划这样做的方法是使用大量的句子样本输入并在每种情况下指定目标输出。然后,我会使用适当的机器学习算法进行分类。
我面临的问题是机器学习培训的数据准备。到目前为止,我已经考虑过以下方法:
1-解析句子并确定每个单词的POS。根据词性将每个单词分类为1-7。组合每个单词和句子将获得特定代码:例如,102163374。将其用作独立特征。
2-使用总字数作为第二个独立特征。
这种方法的确切问题是第一个特征会根据句子中的单词数量而变化很大。那是问题吗?如果是这样,我该如何处理呢?