我有许多不同程序创建的数据文件。有没有办法确定用于创建数据文件的数据库和数据库版本。
例如,我想确定哪些文件是从Microsoft Access,dBASE,FileMaker,FoxPro,SQLite或其他文件创建的。
我真的只想以某种方式快速扫描文件,并显示有关它们的信息,包括源数据库和版本。
供参考,我正在使用Delphi 2009。
答案 0 :(得分:8)
首先,检查文件扩展名。请查看corresponding wikipedia article或其他网站。
然后你可以从所谓的“签名”中猜出文件格式。
这主要是第一个能够识别文件格式的字符内容。
您在此very nice Gary Kessler's网站上有更新的列表。
例如,这里是how our framework identify the MIME format from the file content,在服务器端:
function GetMimeContentType(Content: Pointer; Len: integer;
const FileName: TFileName=''): RawUTF8;
begin // see http://www.garykessler.net/library/file_sigs.html for magic numbers
result := '';
if (Content<>nil) and (Len>4) then
case PCardinal(Content)^ of
$04034B50: Result := 'application/zip'; // 50 4B 03 04
$46445025: Result := 'application/pdf'; // 25 50 44 46 2D 31 2E
$21726152: Result := 'application/x-rar-compressed'; // 52 61 72 21 1A 07 00
$AFBC7A37: Result := 'application/x-7z-compressed'; // 37 7A BC AF 27 1C
$75B22630: Result := 'audio/x-ms-wma'; // 30 26 B2 75 8E 66
$9AC6CDD7: Result := 'video/x-ms-wmv'; // D7 CD C6 9A 00 00
$474E5089: Result := 'image/png'; // 89 50 4E 47 0D 0A 1A 0A
$38464947: Result := 'image/gif'; // 47 49 46 38
$002A4949, $2A004D4D, $2B004D4D:
Result := 'image/tiff'; // 49 49 2A 00 or 4D 4D 00 2A or 4D 4D 00 2B
$E011CFD0: // Microsoft Office applications D0 CF 11 E0 = DOCFILE
if Len>600 then
case PWordArray(Content)^[256] of // at offset 512
$A5EC: Result := 'application/msword'; // EC A5 C1 00
$FFFD: // FD FF FF
case PByteArray(Content)^[516] of
$0E,$1C,$43: Result := 'application/vnd.ms-powerpoint';
$10,$1F,$20,$22,$23,$28,$29: Result := 'application/vnd.ms-excel';
end;
end;
else
case PCardinal(Content)^ and $00ffffff of
$685A42: Result := 'application/bzip2'; // 42 5A 68
$088B1F: Result := 'application/gzip'; // 1F 8B 08
$492049: Result := 'image/tiff'; // 49 20 49
$FFD8FF: Result := 'image/jpeg'; // FF D8 FF DB/E0/E1/E2/E3/E8
else
case PWord(Content)^ of
$4D42: Result := 'image/bmp'; // 42 4D
end;
end;
end;
if (Result='') and (FileName<>'') then begin
case GetFileNameExtIndex(FileName,'png,gif,tiff,tif,jpg,jpeg,bmp,doc,docx') of
0: Result := 'image/png';
1: Result := 'image/gif';
2,3: Result := 'image/tiff';
4,5: Result := 'image/jpeg';
6: Result := 'image/bmp';
7,8: Result := 'application/msword';
else begin
Result := RawUTF8(ExtractFileExt(FileName));
if Result<>'' then begin
Result[1] := '/';
Result := 'application'+LowerCase(Result);
end;
end;
end;
end;
if Result='' then
Result := 'application/octet-stream';
end;
您可以使用GAry Kessler列表中的类似功能。
答案 1 :(得分:2)
有许多数据库引擎有数百个(如果不是数千个)版本和格式。 (二进制,CSV,XML ......)其中许多都经过加密以保护内容。识别每个数据库和每种格式是非常“不可能”的,并且它是不断变化的主题。
首先,您必须将任务限制为要扫描的数据库引擎列表。多数民众赞成我会做的......
答案 2 :(得分:2)
首先,我不相信你能在“快速扫描”中做得更多,而不是提供“可能的格式”。此外,很难想象任何快速技术都可靠。
DBASE文件通常使用扩展名.dbf。 FoxPro和Clipper使用dBase文件格式的变体。维基百科将这些文件记录为xBase。任何可以打开dBase文件的dBase库也可能(a)通过打开它来显示这实际上是一个真正的dBase文件,并且(b)允许您查看正在使用的xBase文件格式的哪些受支持的变体
访问文件通常使用.mdb文件格式,但可以使用密码加密。您可以编写自己的库,可以将内部内容标识为“Jet数据库引擎”(Access使用的内部文件类型)但不读取内容,但我怀疑没有破解密码,你可以这样做可靠。
FileMaker文件可以有许多文件扩展名,其内部文件格式没有很好地记录。根据维基百科,.fm .fp3 .fp5和.fp7是常见的文件扩展名。与Access一样,filemaker数据库也会遇到类似的“密码”问题。除了通过ODBC,我不知道有什么方法可以在delphi中读取filemaker文件,即便如此,我认为你不能在Delphi中提供由ODBC驱动的“omni-reader”,因为ODBC需要仔细设置和知识在通过ODBC可读之前,将原始文件放入odbc数据源中。浏览/发现不是ODBC支持的阶段。
SQLite文件可以包含任何文件扩展名。尝试检测它的最简单方法是使用SQLite加载/打开文件,看它是否打开。
列表的其余部分或多或少是无限的,技术也是一样的。只需继续将更多数据库引擎和访问层库添加到您的Katamari Damaci数据库检测器工具中。
如果你想从你想要的旧数据库格式开始,我会调查使用BDE(古老,但嘿,你说的是古老的东西),加上ADO,试图自动检测和打开文件