Lstm改进标记化

时间:2016-10-19 22:43:05

标签: tensorflow recurrent-neural-network lstm

最近,我盯着张力流,dnns等,现在我试图用更短的句子(医生指示)来实现更严肃的信息检索。 不幸的是,我所拥有的数据集一如既往地非常糟糕"。当我尝试使用嵌入字时,我实际上需要"清洁"数据。举一个例子: "参加两个pilleach日"。药丸和药丸之间缺少白色空间。我正在实施" tokenizer Improver"根据整个文档(tf)中术语的频率,查看每个句子并根据句子中每个单词的联合概率提出新的标记化。正如我今天所做的那样,我想到了一个想法:当我可以使用强大的学习算法(如Lstm网络)为我做这件事时,为什么还要为这个问题编写次优解决方案。但是,截至今天,我只有感觉,实际上可以做到这一点。众所周知,在构建这样复杂的问题时,情感并不是最好的。我不知道从哪里开始:我的训练集和学习目标应该是什么。 我知道这是一个广泛的问题,但我知道有很多才华横溢的人都对张量流和神经网络有了更多的了解,所以我确信有人已经解决了类似问题,或者只知道如何处理这个问题。 欢迎任何指导,我不会除了你当然为我解决这个问题:) Besos和所有tensorflow社区的所有最好的:))

1 个答案:

答案 0 :(得分:2)

遇到同样的问题。我通过使用字符级网来解决它。基本上我重新编写了height(),将整个"单词" -elements踢出来,并且只是保持了这个水平。

训练数据:我把我拥有的数据视为脏,使用脏数据作为目标,使得创建输入更加脏。

所以你的"采取两个pilleach日"将会学习,因为在很多情况下你会有一个干净且类似的短语,例如: "每天早上服用一粒药丸"所提到的政权将作为目标,你在被破坏的投入上训练网络,例如"采取早期的方式,#34;