检测字符串是否包含“真实句子”?

时间:2010-09-17 00:40:13

标签: detect

那里有一些库可以判断一个给定的字符串是否包含英文的“真实句子”,这意味着它包含来自英语的单词? (句子没有意义,但它应该包含真正的英语单词)


例如,以下不是句子(至少用英语:) -

hsgdhjf asdf dsusdf udfhpiew

2 个答案:

答案 0 :(得分:3)

您可以使用拼写检查器确保每个单词拼写正确(有许多库,我没有使用过),但仍然不会告诉您该句子是否具有语法性。此外,英语发音者可能会认为句子“真实”,即使它有一些错误,有些单词不在字典中。

这样做的最佳方法仍然是让您的程序向说英语的人显示所谓的判决,并询问他们这是否是“真正的句子”。

答案 1 :(得分:3)

这是一个未解决的问题,因为计算机不知道“有意义”。即使它试图通过检测名词,动词等来解析句子,仍然会有"colorless green ideas sleep furiously""Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo"之类的短语通过。我怀疑很多人会说那些是句子。

还有多种解析句子的方法,例如“时间过得像箭一样;果蝇像香蕉”可以解析为:

  • 形容词名词动词篇名词;名词动词介词文章名词
  • 名词动词介词文章名词;形容词名词动词文章名词

只采取两种方式。

底线:解析自然语言很难,理解它更难。