如何安装离线Spark NLP软件包

时间:2020-08-17 07:20:59

标签: apache-spark pyspark johnsnowlabs-spark-nlp

如何在没有互联网连接的情况下安装离线Spark NLP软件包。 我已经下载了软件包(x_varnames = x_vars.flatten().tolist() ),并将其上传到集群中。

我已经使用recognizee_entities_dl安装了Spark NLP。 我正在使用PySpark,并且无法从群集中下载软件包。

已经尝试过;

pip install spark-nlp==2.5.5

错误:

pipeline = PretrainedPipeLine.from_disk('/path/to/recognize_entities_dl')
pipeline = PretrainedPipeLine.load('/path/to/recognize_entities_dl')

1 个答案:

答案 0 :(得分:1)

查看您的错误:

 hdfs://...../recognize_entities_dl_en_2.4.3_2.4_1584626752821/metatdata

元数据,您应该通过删除一个额外的“ t”来更改为元数据

此外,您在“ recognize_entities_dl_en_ 2.4.3 _2.4_1584626752821”中看到了 2.4.3

这表示它适用于 Spark NLP 2.4.3

但是,在问题中,您提到您正在使用

spark-nlp==2.5.5

只要没事,

2.5.5 >= 2.4.3

但有时会引起问题。

2.4 _1584626752821”中

2.4

这表明它适用于 Apache Spark 2.4

针对Apache Spark 2.4.x构建和编译的Spark NLP库。这就是为什么模型和管道仅适用于2.4.x版本的原因。