应用错误收集

这是我的问题：我想为我拥有的一些文件嵌入文件。这些文件有9000多个字。据我了解，BERT的限制为510个字。根据我的阅读，我还了解到运行时间将随着输入长度的增加而平方增加。

用例：我正在制作一个Elasticsearch引擎，专门用于法律判决。我打算使用dense vectors功能。我要实现的目标如下。假设某人搜索Cases of person robbed。现在，此查询应该返回判断，其中包括抢劫/抢劫男人/女人/人，带走财产等。

我尝试使用基于同义词的方法，但是结果很差。我认为可以通过以下两种方式解决问题：

1）使用深度学习算法或类似TF-IDF的简单内容对文本进行汇总，然后对其进行编码。可以针对每个判断进行此操作。

2）将判断分为几个小部分。例如，将一个8,000个单词的案例分成16个部分，然后分别对每个部分进行编码和索引。

我希望您对以下方法有什么想法，以及是否还有其他可行的方法。我也尝试过查询扩展，但是结果不如我预期。

谢谢