我们如何使用ANN查找一些相似的文档?我知道这是一个愚蠢的问题,但是我是NLP领域的新手。 我使用kNN和词袋方法制作了一个模型来解决我的问题。使用它,我可以获得n个与输入内容有些相似的文档(以及它们的紧密程度),但是现在我想使用ANN来实现相同的文档,但我一无所知。
在此先感谢您的帮助或建议。
答案 0 :(得分:0)
您可以使用“单词嵌入”技术,以密集的矢量表示形式呈现单词。要查找与矢量相似的文档,只需使用cosine similarity。
如何使用TensorFlow建立word2vec模型的示例。另一个示例是如何使用Keras的embeddings layer。
答案 1 :(得分:0)
获取语言嵌入的方法是training them yourself on your corpus of choice(足够大-例如Wikipedia)或下载经过训练的嵌入(对于python,有许多经过培训的或可通过gensim
模块加载的嵌入源) -这是Python word2vec的事实上的标准。
您还可以使用GloVe(使用glove-python
)或FastText词嵌入。
如果您有兴趣,可以找到更多detailed descriptions of embeddings with code examples and source papers。
答案 2 :(得分:0)
请看一下https://arxiv.org/pdf/1805.10685.pdf文章,它为您提供了一个总体思路。 检查此链接以获取更多参考信息https://github.com/Hironsan/awesome-embedding-models