是否有已知的服务来验证CSV文件?

时间:2011-07-18 20:27:15

标签: validation service csv web

是否有任何良好的网站/服务来验证CSV文件的一致性?

W3C validator相同,但对于CSV?

7 个答案:

答案 0 :(得分:20)

我最近遇到了Google Refine - 它不是用于验证CSV文件的服务,它是您在本地下载的工具,但它确实提供了许多工具来处理数据和检测异常。

http://code.google.com/p/google-refine/

如回复中所述,“CSV”已成为一个定义不明确的术语,主要是因为人们在使用分隔符分隔数据时不遵循One True Way

http://www.catb.org/~esr/writings/taoup/html/ch05s02.html

编辑/更新(2016-08-09):
CSV Currently Becoming a Well-Defined Term by the W3C CSV Working Group

答案 1 :(得分:10)

开放数据研究所正在开发一种CSV验证服务,允许用户检查其数据结构,并根据简单模式对其进行验证。

该服务仍处于alpha状态,但可以在此处找到:

http://csvlint.io/

应用程序和底层库的代码都是开源的:

https://github.com/theodi/csvlint

https://github.com/theodi/csvlint.rb

库中的README提供了可生成的错误和警告的摘要。可以报​​告以下类型的错误:

  • :wrong_content_type - 内容类型不是text / csv
  • :ragged_rows - 行具有不同数量的列(比文件中的第一行)
  • :blank_rows - 完全空行,例如空行或所有列值为空的行
  • :invalid_encoding - 解析行时编码错误,例如因为字符无效
  • :not_found - 检索数据时出现HTTP 404错误
  • :quoting - 引用问题,例如:缺失或流浪的报价,未公开的引用字段
  • :whitespace - 引用列包含前导或尾随空格

可以报告以下类型的警告:

  • :no_encoding - HTTP请求中返回的Content-Type标头没有charset参数
  • :encoding - 字符集不是UTF-8
  • :no_content_type - 正在提供没有Content-Type标头的文件
  • :excel - 没有Content-Type标头,文件扩展名为.xls
  • :check_options - CSV文件似乎只包含一列
  • :inconsistent_values - 同一列中的值不一致。报告是否< 90%的值似乎具有相同的数据类型(数字或字母数字,包括标点符号)

答案 2 :(得分:1)

国家档案馆开发了一个CSV Schema LanguageCSV Validator软件,用Java编写。它是开源的。

答案 3 :(得分:1)

要验证CSV文件,我在Visual Studio Code中使用RAINBOW CSV扩展名,并在Excel中打开CSV文件。

答案 4 :(得分:0)

csvlint.com上的

CSV Lint(不是.io :)是我们为解决此问题而构建的服务。它逐个单元地检查CSV文件与用户定义的验证规则/模式。

我们花了很多时间调整用户界面,以便用户轻松创建复杂的验证规则/模式,无需单行代码即可满足其业务需求。

我们的离线验证功能允许用户即使在验证多个大尺寸(包含数百万+行)文件时也能实时查看结果,最重要的是,它可以100%保护用户数据隐私。

答案 5 :(得分:0)

Python Quickstart在线,易于使用,设置定界符并运行。

Toolkit Bay CSV Validator & Linter在线演示,自动定界符检测,上传和运行。

答案 6 :(得分:0)

有一种验证CSV文件的好方法。我指的是article,其中以最详细的方式说明了整个过程。

验证过程包括两个步骤:第一个步骤是将文件发布到API。文件被接受后,API将返回一个包含验证过程结果的轮询端点。每个文件限制为10 MB。