应用错误收集

时间：2017-07-17 05:05:29

标签： python machine-learning data-science tf-idf traceback

我正在尝试解决一个问题，即每当有崩溃时（在Linux世界中）我都有包含已解码回溯（堆栈调用跟踪）的文件，并且我有一个唯一的ID来跟踪每次发生的崩溃。

我想构建一个类文件，它将从之前的已解码回溯中学习，并预测是否存在当前回溯的已存在ID。

这是我的第一个机器学习项目。我使用机器学习并在python中使用CountVectorizer和TF-IDF方法进行了试验。

我想知道分类需要考虑哪些功能以及文本分类的合适算法来解决这个问题。

答案 0 :(得分：1)

很高兴听到这是您的第一个机器学习项目！对于我的第一个NLP，我使用亚马逊产品进行了审核。你试试Bag of words（BOW）模型吗？你也可以尝试N-gram。您可以考虑使用NaiveBayes分类器并评估您的分类。然后你就会知道哪个会给你最好的算法来解决这个问题。