我们如何使用人工神经网络查找相似的文档?

时间:2018-10-17 05:46:32

标签: python machine-learning nlp artificial-intelligence word-embedding

我们如何使用ANN查找一些相似的文档?我知道这是一个愚蠢的问题,但是我是NLP领域的新手。 我使用kNN和词袋方法制作了一个模型来解决我的问题。使用它,我可以获得n个与输入内容有些相似的文档(以及它们的紧密程度),但是现在我想使用ANN来实现相同的文档,但我一无所知。

在此先感谢您的帮助或建议。

3 个答案:

答案 0 :(得分:0)

您可以使用“单词嵌入”技术,以密集的矢量表示形式呈现单词。要查找与矢量相似的文档,只需使用cosine similarity

如何使用TensorFlow建立word2vec模型的示例。另一个示例是如何使用Keras的embeddings layer

答案 1 :(得分:0)

获取语言嵌入的方法是training them yourself on your corpus of choice(足够大-例如Wikipedia)或下载经过训练的嵌入(对于python,有许多经过培训的或可通过gensim模块加载的嵌入源) -这是Python word2vec的事实上的标准。

您还可以使用GloVe(使用glove-python)或FastText词嵌入。

如果您有兴趣,可以找到更多detailed descriptions of embeddings with code examples and source papers

答案 2 :(得分:0)

请看一下https://arxiv.org/pdf/1805.10685.pdf文章,它为您提供了一个总体思路。 检查此链接以获取更多参考信息https://github.com/Hironsan/awesome-embedding-models