应用错误收集

最近，我盯着张力流，dnns等，现在我试图用更短的句子（医生指示）来实现更严肃的信息检索。不幸的是，我所拥有的数据集一如既往地非常糟糕＆＃34;。当我尝试使用嵌入字时，我实际上需要＆＃34;清洁＆＃34;数据。举一个例子：＆＃34;参加两个pilleach日＆＃34;。药丸和药丸之间缺少白色空间。我正在实施＆＃34; tokenizer Improver＆＃34;根据整个文档（tf）中术语的频率，查看每个句子并根据句子中每个单词的联合概率提出新的标记化。正如我今天所做的那样，我想到了一个想法：当我可以使用强大的学习算法（如Lstm网络）为我做这件事时，为什么还要为这个问题编写次优解决方案。但是，截至今天，我只有感觉，实际上可以做到这一点。众所周知，在构建这样复杂的问题时，情感并不是最好的。我不知道从哪里开始：我的训练集和学习目标应该是什么。我知道这是一个广泛的问题，但我知道有很多才华横溢的人都对张量流和神经网络有了更多的了解，所以我确信有人已经解决了类似问题，或者只知道如何处理这个问题。欢迎任何指导，我不会除了你当然为我解决这个问题:) Besos和所有tensorflow社区的所有最好的:)）

Lstm改进标记化

1 个答案: