如何根据正则表达式验证文件的内容

时间:2014-03-25 14:58:23

标签: java validation

我想用一些正则表达式来验证pdf文件内容。为此我通过使用IOUtils(commons-io-2.2 jar)API将文件的内容转换为字符串对象。以下是我的代码。

FileInputStream fis = new FileInputStream(filePath);
    StringWriter writer = new StringWriter();
    String encoding = "UTF-8";
    IOUtils.copy(fis, writer, encoding);
   String sourceText=writer.toString();

在准备我的sourceText之后,我正在使用如下面的正则表达式验证sourceText

    Pattern srcPattern = Pattern.compile("\\btax", 2);
    Matcher taxMatcher = srcPattern.matcher(this.sourceText);
    if (taxMatcher.find()) {
        isTaxRelevant = true;
    } else{isTaxRelevant = false;
            }

在原始PDF文档中,我有使用字符串税的语句,但上面的代码总是返回false。当我打印源文本时,我将文本视为二进制数据。 我怀疑由于这个原因,它只能无法验证正则表达式。是否有机会根据正则表达式验证PDF文件的内容。

0 个答案:

没有答案