应用错误收集

我正在尝试将.xml文件分为两类（10,000个样本，每个样本5000个）。这些文件主要包含英文文本。我正在努力寻找可以训练ML模型的功能。

我已经尝试过的是，我将.xml文件的英文文本转换为.docx，并应用了基于NLP的Naive Bayes分类器，但是由于不同的类可能包含相同的英文文本，因此效果不佳。

在另一种方法中，我对英文文本执行了Ordinal Encoder，并将其输入到密集的网络中，但没有运气。

我认为NLP方法不好，我应该坚持使用深度神经网络。但是我应该使用哪些功能，例如文件大小？另外，有没有办法用二进制输入来馈送神经网络（例如先将文件转换为二进制）？