标签: nlp code-snippets language-detection
我正在对GitHub评论做一些分析。但为此,我需要从大型集合中自动从注释中排除代码示例和错误消息。
另一种更容易说出来的方法是,我只能保留评论的英文部分。虽然很少有图书馆可以检测句子的语言,但我的案例也很少有挑战。 1)评论部分并不总是遵循正确的英语语法,2)代码样本和错误信息也主要由英语单词组成。
那么应该是我最好的方法。结果不需要100%准确,我只想知道至少可以给我一个满意结果的最佳方法。有什么想法吗?
答案 0 :(得分:1)
这个问题很古老,但是我的Google搜索使我想到了这个问题;因此请提供this答案,以防万一有人也遇到这个问题。