如何使用许多PDF文件训练自定义手套矢量表示形式?

时间:2018-12-29 05:39:23

标签: nltk stanford-nlp word2vec spacy glove

我想通过使用许多PDF文件来训练自己的自定义手套表示形式。我怎样才能做到这一点 ?并且有什么方法可以使用POS标记和依赖项解析等概念?您可以建议任何实现该方法的链接吗?

1 个答案:

答案 0 :(得分:1)

您的问题过于宽泛,无法给出任何详尽的答案,但是您当然可以按照自己的描述去做。

您将首先研究用于从PDF提取纯文本的库。

一些word2vec项目已经基于单词标记训练了单词向量,这些单词标记已使用POS标签或依赖项定义的上下文进行了扩展,其潜在收益取决于您的目标。例如,请参阅Levy&Goldberg关于基于依赖的嵌入的论文:

https://levyomer.wordpress.com/2014/04/25/dependency-based-word-embeddings/