是否有任何良好的网站/服务来验证CSV文件的一致性?
与 W3C validator相同,但对于CSV?
答案 0 :(得分:20)
我最近遇到了Google Refine - 它不是用于验证CSV文件的服务,它是您在本地下载的工具,但它确实提供了许多工具来处理数据和检测异常。
http://code.google.com/p/google-refine/
如回复中所述,“CSV”已成为一个定义不明确的术语,主要是因为人们在使用分隔符分隔数据时不遵循One True Way
http://www.catb.org/~esr/writings/taoup/html/ch05s02.html
编辑/更新(2016-08-09):
CSV Currently Becoming a Well-Defined Term by the W3C CSV Working Group
答案 1 :(得分:10)
开放数据研究所正在开发一种CSV验证服务,允许用户检查其数据结构,并根据简单模式对其进行验证。
该服务仍处于alpha状态,但可以在此处找到:
应用程序和底层库的代码都是开源的:
https://github.com/theodi/csvlint
https://github.com/theodi/csvlint.rb
库中的README提供了可生成的错误和警告的摘要。可以报告以下类型的错误:
:wrong_content_type
- 内容类型不是text / csv :ragged_rows
- 行具有不同数量的列(比文件中的第一行):blank_rows
- 完全空行,例如空行或所有列值为空的行:invalid_encoding
- 解析行时编码错误,例如因为字符无效:not_found
- 检索数据时出现HTTP 404错误:quoting
- 引用问题,例如:缺失或流浪的报价,未公开的引用字段:whitespace
- 引用列包含前导或尾随空格可以报告以下类型的警告:
:no_encoding
- HTTP请求中返回的Content-Type标头没有charset参数:encoding
- 字符集不是UTF-8 :no_content_type
- 正在提供没有Content-Type标头的文件:excel
- 没有Content-Type标头,文件扩展名为.xls :check_options
- CSV文件似乎只包含一列:inconsistent_values
- 同一列中的值不一致。报告是否< 90%的值似乎具有相同的数据类型(数字或字母数字,包括标点符号)答案 2 :(得分:1)
国家档案馆开发了一个CSV Schema Language和CSV Validator软件,用Java编写。它是开源的。
答案 3 :(得分:1)
要验证CSV文件,我在Visual Studio Code中使用RAINBOW CSV扩展名,并在Excel中打开CSV文件。
答案 4 :(得分:0)
CSV Lint(不是.io :)是我们为解决此问题而构建的服务。它逐个单元地检查CSV文件与用户定义的验证规则/模式。
我们花了很多时间调整用户界面,以便用户轻松创建复杂的验证规则/模式,无需单行代码即可满足其业务需求。
我们的离线验证功能允许用户即使在验证多个大尺寸(包含数百万+行)文件时也能实时查看结果,最重要的是,它可以100%保护用户数据隐私。
答案 5 :(得分:0)
Python Quickstart在线,易于使用,设置定界符并运行。
Toolkit Bay CSV Validator & Linter在线演示,自动定界符检测,上传和运行。
答案 6 :(得分:0)
有一种验证CSV文件的好方法。我指的是article,其中以最详细的方式说明了整个过程。
验证过程包括两个步骤:第一个步骤是将文件发布到API。文件被接受后,API将返回一个包含验证过程结果的轮询端点。每个文件限制为10 MB。