Google openrefine不会加载大的csv文件

时间:2017-12-21 12:46:23

标签: csv openrefine

当我尝试创建项目时,我加载了具有3,5百万行(400mb)的csv文件 和精炼不上传它。 它表示100% 1037 mb 我打开了refine.ini和固定内存限制,但没有结果

 NOTE: This file is not read if you run the Refine executable directly
# It is only read of you use the refine shell script or refine.bat

no_proxy="localhost,127.0.0.1"
#REFINE_PORT=3334
#REFINE_HOST=127.0.0.1
#REFINE_WEBAPP=main\webapp

# Memory and max form size allocations
#REFINE_MAX_FORM_CONTENT_SIZE=104857600
REFINE_MEMORY=100000M

# Set initial java heap space (default: 256M) for better performance with large datasets
REFINE_MIN_MEMORY=100000M

# Some sample configurations. These have no defaults.
#ANT_HOME=C:\grefine\tools\apache-ant-1.8.1
#JAVA_HOME=C:\Program Files\Java\jdk1.6.0_25
#JAVA_OPTIONS=-XX:+UseParallelGC -verbose:gc -Drefine.headless=true
#JAVA_OPTIONS=-Drefine.data_dir=C:\Users\user\AppData\Roaming\OpenRefine

# Uncomment to increase autosave period to 60 mins (default: 5 minutes) for better performance of long-lasting transformations
#REFINE_AUTOSAVE_PERIOD=60

我应该做什么?

1 个答案:

答案 0 :(得分:1)

根据我在https://groups.google.com/d/msg/openrefine/-loChQe4CNg/eroRAq9_BwAJ进行的测试并发布,要处理350万行,您可能需要分配大约8Gb RAM才能有一个合理响应的项目​​。

OpenRefine changing the port and host when executable is run directly中所述,在Windows上运行OpenRefine时,您在其中设置选项取决于您是通过exe文件还是bat文件启动OpenRefine。

要分配超过4Gb的RAM,您肯定需要使用64位Java版本 - 请检查正在运行的Java OpenRefine版本(它将使用JAVA_HOME中指定的Java)。但是,您可能会发现在64位操作系统上在32位Java上分配4Gb的问题(请参阅Maximum Java heap size of a 32-bit JVM on a 64-bit OS