Java通过读取前几个字节读取实际文件类型(Forensic)

时间:2015-04-30 10:10:03

标签: java computer-forensics

你好我需要一种方法来使用Java读取任何文件的前四个字节。 为什么前四个字节?因为它是实际文件类型的取证拇指打印(文件扩展名不可靠,因为它可以伪造)

http://en.wikipedia.org/wiki/File_carving

现在,以这种方式读取文件(下面是Java代码)将读取文件“content”,我认为它会跳过文件头信息......?我无法获得 Magic Number (前四个字节),因此无法识别/确认给定样本的真实文件类型。

byte[] buffer = new byte[4];
InputStream is = new FileInputStream("somwhere.in.the.dark");
if (is.read(buffer) != buffer.length) { 
    // do something 
}
is.close();

Read First 4 Bytes of File

建议吗?

3 个答案:

答案 0 :(得分:3)

如空白所示,https://tika.apache.org

以下是代码 - 在此示例中," test3_iamexe.txt" exe 可剪切,文件扩展名重命名为& #34;的 TXT "由攻击者。

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MediaType;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.AbstractParser;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.XHTMLContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.Collections;
import java.util.Set;
import org.apache.tika.metadata.Property;

public class TestTika {

    public static void main(String[] args) {
        File file = null;
    InputStream stream = null;
        String contentType = null;

        try
        {
            file = new File("C:\\tmp\\test3_iamexe.txt");
            stream = new FileInputStream(file);

            AutoDetectParser parser = new AutoDetectParser();
            BodyContentHandler handler = new BodyContentHandler();
            Metadata metadata = new Metadata();

            try {
                // This step here is a little expensive
                parser.parse(stream, handler, metadata);
            } finally {
                stream.close();
            }

            // metadata is a HashMap, you can loop over it see what you need. Alternatively, I think Content-Type is what you need
            contentType = metadata.get("Content-Type");

        } catch(...)
        {
            // handle it
        }

        return;
    }
}

答案 1 :(得分:2)

我认为你可以使用:

IOUtils.toByteArray(InputStream is) 

见这里:IOUtils.toByteArray 将InputStream转换为byteArray,然后获取前4个字节。

答案 2 :(得分:1)

使用java.nio.file API;具体而言,编写自己的FileTypeDetector

我碰巧在我的一个项目中正是这样做的:

https://github.com/fge/java7-fs-more/tree/topic/filetypedetector

有了这个,我可以使用Files.probeContentType()并将文件的确切类型作为MIME字符串返回。

请参阅the test file

现在,它是如何运作的:

  • 您编写自己的FileTypeDetector实现(here是检测PNG文件的示例);
  • 如果检测器无法确定类型,则将其返回null;
  • 您在META-INF/services/java.nio.file.spi.FileTypeDetector注册了该实施(请参阅here);
  • 测试它......
  • 并使用Files.probeContentType()