应用错误收集

我们如何使用人工神经网络查找相似的文档？

时间：2018-10-17 05:46:32

标签： python machine-learning nlp artificial-intelligence word-embedding

我们如何使用ANN查找一些相似的文档？我知道这是一个愚蠢的问题，但是我是NLP领域的新手。我使用kNN和词袋方法制作了一个模型来解决我的问题。使用它，我可以获得n个与输入内容有些相似的文档（以及它们的紧密程度），但是现在我想使用ANN来实现相同的文档，但我一无所知。

在此先感谢您的帮助或建议。

3 个答案:

答案 0 :(得分：0)

您可以使用“单词嵌入”技术，以密集的矢量表示形式呈现单词。要查找与矢量相似的文档，只需使用cosine similarity。

如何使用TensorFlow建立word2vec模型的示例。另一个示例是如何使用Keras的embeddings layer。

答案 1 :(得分：0)

获取语言嵌入的方法是training them yourself on your corpus of choice（足够大-例如Wikipedia）或下载经过训练的嵌入（对于python，有许多经过培训的或可通过gensim模块加载的嵌入源） -这是Python word2vec的事实上的标准。

您还可以使用GloVe（使用glove-python）或FastText词嵌入。

如果您有兴趣，可以找到更多detailed descriptions of embeddings with code examples and source papers。

答案 2 :(得分：0)

请看一下https://arxiv.org/pdf/1805.10685.pdf文章，它为您提供了一个总体思路。检查此链接以获取更多参考信息https://github.com/Hironsan/awesome-embedding-models