应用错误收集

如何自动检测文本示例中的代码段？

时间：2017-11-05 03:27:29

标签： nlp code-snippets language-detection

我正在对GitHub评论做一些分析。但为此，我需要从大型集合中自动从注释中排除代码示例和错误消息。

另一种更容易说出来的方法是，我只能保留评论的英文部分。虽然很少有图书馆可以检测句子的语言，但我的案例也很少有挑战。 1）评论部分并不总是遵循正确的英语语法，2）代码样本和错误信息也主要由英语单词组成。

那么应该是我最好的方法。结果不需要100％准确，我只想知道至少可以给我一个满意结果的最佳方法。有什么想法吗？

1 个答案:

答案 0 :(得分：1)

这个问题很古老，但是我的Google搜索使我想到了这个问题；因此请提供this答案，以防万一有人也遇到这个问题。