我想用一些正则表达式来验证pdf文件内容。为此我通过使用IOUtils(commons-io-2.2 jar)API将文件的内容转换为字符串对象。以下是我的代码。
FileInputStream fis = new FileInputStream(filePath);
StringWriter writer = new StringWriter();
String encoding = "UTF-8";
IOUtils.copy(fis, writer, encoding);
String sourceText=writer.toString();
在准备我的sourceText之后,我正在使用如下面的正则表达式验证sourceText
Pattern srcPattern = Pattern.compile("\\btax", 2);
Matcher taxMatcher = srcPattern.matcher(this.sourceText);
if (taxMatcher.find()) {
isTaxRelevant = true;
} else{isTaxRelevant = false;
}
在原始PDF文档中,我有使用字符串税的语句,但上面的代码总是返回false。当我打印源文本时,我将文本视为二进制数据。 我怀疑由于这个原因,它只能无法验证正则表达式。是否有机会根据正则表达式验证PDF文件的内容。