无法识别文件类型

时间:2017-10-25 19:15:10

标签: java parsing apache-camel fileparsing

这是我的第一篇文章。我是Java的新手。我正在处理文件解析器。我试图确定它是CSV还是其他文件格式,但看起来它不是一个标准格式。我正在研究apache camel解决方案(我的第一个也是最后一个想法:(),但也许有些人认识到这种文件格式?此外,我的输出还有.imp文件。

这是我的示例输入:

NrDok:FS-2222/17/W Data:12.02.2017 SposobPlatn:GOT NazwaWystawcy:MAAKAI Gawron AdresWystawcy:33-123 bABA KodWystawcy:33-112 MiastoWystawcy:bABA UlicaWystawcy:czysfa 8 NIPWystawcy:123-19-85-123 NazwaOdbiorcy:abc abc-HANDLOWO-USŁUGOWE AdresOdbiorcy:33-123 fghd KodOdbiorcy:33-123 MiastoOdbiorcy:Tdsfs UlicaOdbiorcy:dfdfdA 39 NIPOdbiorcy:82334349 TelefonOdbiorcy:654-522-124 NrOdbiorcyWSieciSklepow:efdsS-sffgsA IloscLinii:1 Linia:Nazwa{ĆWIARTKA KG}Kod{C1}Vat{5}Jm{kg.}Asortyment{dfgv}Sww{}PKWIU{10.12.10}Ilosc{3.40}Cena{n3.21}Wartosc{n11.83}IleWOpak{1}CenaSp{b0.00} DoZaplaty:252.32

这是我的示例输出文件:

FH 2015.07.31 2015.07.31 F04443 Gotowka FO 812-123-45-11 P.a.b.Uc"fdad" abcd deffF UL.fdfgdfdA 12/33 33-123 afvdf FS 779-19-06-082 badfdf S.A. ul. Wisniowa 89 60-003 Poznan FP 00218746 CHRZAN TARTY EXTRA POLONAISE 180G SZT 32.00 2.21 8 10.39.17.0 32.00 5900138000055

有没有简单的方法将第一个文件转换为第二种文件格式?也许你知道这个文件的类型?与此同时,我继续用阿帕奇骆驼工作。

提前感谢您的时间和帮助!

2 个答案:

答案 0 :(得分:0)

我建议你玩https://tika.apache.org/1.1/detection.html#Mime_Magic_Detection

它是文件类型识别的非常好的库。

这里https://www.tutorialspoint.com/tika/tika_document_type_detection.htm我们有一个简单的例子。

答案 1 :(得分:0)

您的文件可以作为标准Java .properties文件读取。此类文件允许=:作为键和值分隔符。虽然它包含非ISO-8859-1字符(如波兰语Ć)这一事实可能会阻止Java正确解析它。

这一行

Nazwa{ĆWIARTKA  KG}Kod{C1}Vat{5}Jm{kg.}Asortyment{dfgv}Sww{}PKWIU{10.12.10}Ilosc{3.40}Cena{n3.21}Wartosc{n11.83}IleWOpak{1}CenaSp{b0.00}

似乎是

形式的对象的一些自定义序列化格式
key1{value1}key2{value2}...

您的输出文件包含许多未在输入中列出的数据,这使我认为有一些数据从外部系统查询以构建输出。你应该自己调查一下。任何人都无法用提供的输入猜测转换。