如何使用BERT为Elasticseearch编码大文本?

时间:2020-03-06 12:15:49

标签: python tensorflow deep-learning pytorch huggingface-transformers

这是我的问题: 我想为我拥有的一些文件嵌入文件。这些文件有9000多个字。据我了解,BERT的限制为510个字。根据我的阅读,我还了解到运行时间将随着输入长度的增加而平方增加。

用例: 我正在制作一个Elasticsearch引擎,专门用于法律判决。我打算使用dense vectors功能。我要实现的目标如下。 假设某人搜索Cases of person robbed。现在,此查询应该返回判断,其中包括抢劫/抢劫男人/女人/人,带走财产等。

我尝试使用基于同义词的方法,但是结果很差。我认为可以通过以下两种方式解决问题:

1)使用深度学习算法或类似TF-IDF的简单内容对文本进行汇总,然后对其进行编码。可以针对每个判断进行此操作。

2)将判断分为几个小部分。例如,将一个8,000个单词的案例分成16个部分,然后分别对每个部分进行编码和索引。

我希望您对以下方法有什么想法,以及是否还有其他可行的方法。 我也尝试过查询扩展,但是结果不如我预期。

谢谢

0 个答案:

没有答案