您好我已经使用Apache tika抓取了一些html文件并将文本内容写入文本文件,当我将内容写入文本文件时,我得到一些空格和一些不同的符号,所以当我使用opennlp分块解析器时试图解析这些文件行我在下面的代码中ParserTool.parseLine
收到错误,因为那些非单词的行。
InputStream is = new FileInputStream("en-parser-chunking.bin");
ParserModel model = new ParserModel(is);
opennlp.tools.parser.Parser parser = ParserFactory.create(model);
File dir = new File("C://htmlmetadata");
File listDir[] = dir.listFiles();
System.out.println("no of files:"+listDir.length);
for (int i = 0; i < listDir.length; i++)
{
String path=listDir[i].getAbsolutePath();
System.out.println("file name"+listDir[i].getName());
Scanner scanner = new Scanner(new FileInputStream(path), "UTF-8");
while (scanner.hasNextLine())
{
String line=scanner.nextLine();
if(line!=null)
{
Parse topParses[] = ParserTool.parseLine(line, parser, 1);
for (Parse p : topParses)
{
p.show();
}
System.out.println("line in if"+line);
System.out.println("line length in if"+line.length());
}
}
}
我试过检查line.length&gt; 0它也不起作用,因为行长度大于0但它包含一些特殊字符,所以请建议我得到包含单词的行。
由于
答案 0 :(得分:0)
遍历每个角色和
if ((int(character)>=65 && int(character)<=90) || (int(character)>=97 && int(character) <=122))
continue
else {
//skip that line
}