从大型语料库产生问题

时间:2018-09-27 09:34:02

标签: python neural-network nltk autoencoder chinese-locale

我正在做概念证明(POC),以期从大型语料库(中文)生成问题的最终目标。我想生成所有可能的问题,以便在文本中找到答案和问题。为此,我计划使用如下所述的编码器/解码器网络:

编码器: 编码器从输入文本中提取经过预处理的句子,然后根据隐藏层的权重对其进行转换。该隐藏层创建输入文本的中间表示,并将其传递给解码器。

解码器: 解码器将隐藏层信息转换为问题形式。

POC: 首先,我刮了几本中文文件,并建立了自己的语料库。然后,接下来我要进行清理(例如除去非字母),然后使用jieba进行细分,并进一步消除停用词。我已经列出了单词的分布频率。现在,我特别要坚持阻止非英语环境的任务。我可以用Snowball stemmer完成这项任务吗?如果不是,替代解决方法是什么?提取后,我要继续转换数据(弓,tf-idf)。一次,数据已被清理,矢量化和转换,我想应用该模型。

如果我们有句子或段落,我们如何生成所有可能的问题,以便在文本中提供答案和问题?

请。如果我在处理过程中出错了,请纠正我。对于非英文文本的参考帮助或现有工作

我已经引用了以下参考文献: 1)迈克尔·海尔曼的博士学位论文 2)http://www.iro.umontreal.ca/~felipe/TALN2010/Xml/Papers/all/taln2010_submission_172.pdf 3)http://groups.csail.mit.edu/sls/publications/2009/SIGSLaTE09_Xu.pdf

0 个答案:

没有答案