我正试图在火花中实施stanford-ner。我尝试过实施following。我正在从存储在Hbase中的URL中读取提取的原始文本作为rdd,然后将它们转换为dataframe,应用上面链接中提到的ner,然后将数据帧转换回rdd并将提取的名称写入hbase中的新列。对于具有3个节点和16个核心的1276个URL,代码大约需要6分钟。当在3个节点上运行32个内核并且每个120gb用于600 000个URL时,rdd的重新分区设置为1920,执行器和驱动程序内存各自设置为40gb,它恰好需要很长时间。如何提高性能?