如何自动检测文本示例中的代码段?

时间:2017-11-05 03:27:29

标签: nlp code-snippets language-detection

我正在对GitHub评论做一些分析。但为此,我需要从大型集合中自动从注释中排除代码示例和错误消息。

另一种更容易说出来的方法是,我只能保留评论的英文部分。虽然很少有图书馆可以检测句子的语言,但我的案例也很少有挑战。 1)评论部分并不总是遵循正确的英语语法,2)代码样本和错误信息也主要由英语单词组成。

那么应该是我最好的方法。结果不需要100%准确,我只想知道至少可以给我一个满意结果的最佳方法。有什么想法吗?

1 个答案:

答案 0 :(得分:1)

这个问题很古老,但是我的Google搜索使我想到了这个问题;因此请提供this答案,以防万一有人也遇到这个问题。