我必须创建一个系统,从特定域中的非结构化文本生成所有可能的问题答案对。许多问题可能有相同的答案,但系统应生成答案可能具有的所有可能类型的问题。形成的问题应该是有意义的,语法正确的 为此,我使用了nltk并训练了NER,根据我的域创建实体,然后我创建了一些规则来使用NER识别的实体和POS标记的单词的组合来识别问题词。但是这种方法效果不好,因为我无法从文本中创建有意义的问题。此外,一些问题词被错误识别,一些问题词被遗漏。我还阅读了有关使用RNN的研究论文,但由于域名非常小,我没有大量的培训数据。任何人都可以提出更好的方法吗?