在OpenRefine中批量编辑

时间:2017-04-07 18:01:14

标签: openrefine

所以,我有一堆需要清理的.csv文件。他们都需要完成相同的步骤,因此我提取了OpenRefine的操作历史记录,以便将其应用于其他操作历史记录。

我可以在OpenRefine中逐个打开每个文件并应用提取的JSON历史记录。但是有很多文件......

另外,我没有足够的内存在OpenRefine中一次打开它们(打开文件时多次选择)。

有什么方法可以编辑它们全部或使用从OpenRefine中提取的JSON自动编辑?

2 个答案:

答案 0 :(得分:2)

这就是我们创建的BatchRefine,README应该是不言自明的。如果没有,请告诉我。

我最近刚使用BatchRefine将400万条CSV记录转换为RDF,在我的MacBook Pro上花了不到10分钟。

我使用这个简单的shell脚本执行BatchRefine:

#!/bin/bash

for file in ./input/*.tsv
do
  filename=$(basename "$file")

  if [ ! -f "target/"$filename"-transformed" ]
  then
    echo Processing $filename...
    curl -XPOST -H 'Accept: text/turtle' -H 'Content-Type:text/csv' --data-binary "@"$file -o "target/"$filename"-transformed" 'localhost:8310/?refinejson=http://localhost:8000/bar-config.json'

  else
    echo Found "target/"$filename"-transformed", skipping $file
  fi
done;

请注意,您需要调整脚本中的Accept标题,我想您希望再次将CSV作为输出,而不是RDF。

答案 1 :(得分:1)

您可以使用现有库之一自动执行某些OpenRefine操作: