所以,我有一堆需要清理的.csv文件。他们都需要完成相同的步骤,因此我提取了OpenRefine的操作历史记录,以便将其应用于其他操作历史记录。
我可以在OpenRefine中逐个打开每个文件并应用提取的JSON历史记录。但是有很多文件......
另外,我没有足够的内存在OpenRefine中一次打开它们(打开文件时多次选择)。
有什么方法可以编辑它们全部或使用从OpenRefine中提取的JSON自动编辑?
答案 0 :(得分:2)
这就是我们创建的BatchRefine,README应该是不言自明的。如果没有,请告诉我。
我最近刚使用BatchRefine将400万条CSV记录转换为RDF,在我的MacBook Pro上花了不到10分钟。
我使用这个简单的shell脚本执行BatchRefine:
#!/bin/bash
for file in ./input/*.tsv
do
filename=$(basename "$file")
if [ ! -f "target/"$filename"-transformed" ]
then
echo Processing $filename...
curl -XPOST -H 'Accept: text/turtle' -H 'Content-Type:text/csv' --data-binary "@"$file -o "target/"$filename"-transformed" 'localhost:8310/?refinejson=http://localhost:8000/bar-config.json'
else
echo Found "target/"$filename"-transformed", skipping $file
fi
done;
请注意,您需要调整脚本中的Accept
标题,我想您希望再次将CSV作为输出,而不是RDF。
答案 1 :(得分:1)
您可以使用现有库之一自动执行某些OpenRefine操作: