将制表符分隔的文本文件导入openrefine

时间:2017-08-03 15:12:55

标签: text line-breaks openrefine

我有一个中等大小的制表符分隔的.txt文件 - 大约40k行。当我导入Openrefine时,406行将所有剩余的内容 - 整个40,000行放入该行第13列的单个单元格中。

我已经尝试过在两个不同的文本编辑器(Sublime Text 2& TextWrangler)中对隐形文件进行grep-serching,看起来应该是这样。

我也尝试使用Excel转换为csv,这实际上有效,但是:

  1. 这是一个不优雅的解决方法,
  2. 它与变音符有问题,
  3. 我不想花太多时间在Excel中解析它
  4. 我试过除了两条10行之外的违规行,这就引发了同样的问题。

    Here are those 21 lines,直接从TextWrangler复制。 (如果有任何不同,我可以从终端输出复制。)

    任何帮助,一如既往,非常感谢!!

2 个答案:

答案 0 :(得分:0)

我明白了。问题与引号有关。尝试通过取消选中导入文件“引号标记用于包含包含列分隔符的单元格”。

enter image description here

我的屏幕截图中的空列是因为您的文件有时会有两个或三个标签作为分隔符。您可以在导入后使用“重新排序/删除列”轻松删除它们

enter image description here

答案 1 :(得分:0)

解决了它!好吧,有点儿。事实证明,第13列的文本在文本本身中包含双引号 (换句话说, 与分隔符有关全部)。

现在,我只是要删除整个文件中的引号,这确实有效 - 我测试了它。 **我宁愿弄清楚如何将引号作为文本的一部分。试图用/逃避它们,但是没有用。

感谢SO社区。特别是@Ettore。