我正在尝试将.xml文件分为两类(10,000个样本,每个样本5000个)。这些文件主要包含英文文本。我正在努力寻找可以训练ML模型的功能。
我已经尝试过的是,我将.xml文件的英文文本转换为.docx,并应用了基于NLP的Naive Bayes分类器,但是由于不同的类可能包含相同的英文文本,因此效果不佳。
在另一种方法中,我对英文文本执行了Ordinal Encoder,并将其输入到密集的网络中,但没有运气。
我认为NLP方法不好,我应该坚持使用深度神经网络。但是我应该使用哪些功能,例如文件大小?另外,有没有办法用二进制输入来馈送神经网络(例如先将文件转换为二进制)?