我正在尝试从文本文件中提取包含2个单词的句子。我使用了正则表达式,如下面的代码所示。
File doc = new File("D:\\MyFile.txt");
BufferedReader br = null;
System.out.println("enter the regex pattern to be matched");
Scanner keyboard = new Scanner(System.in);
String regxpat = keyboard.nextLine();
String line;
br = new BufferedReader(new FileReader(doc));
Pattern p = Pattern.compile(regxpat, CASE_INSENSITIVE);
while ((line = br.readLine()) != null)
{
try
{
Matcher m = p.matcher(line);
m.find();
System.out.print(m.group().toString());
}
catch (IllegalStateException e)
{
}
continue;
}
//i tried regex= "(he)*([.&&[^\.]]*?)Milan(.*?)\."
如果文字是:
"...Thomas Edison is a scientist. He invented bulb. He was born in Milan, Ohio, and grew up in Port Huron, Michigan. He was the seventh and last child of Samuel Ogden Edison, Jr...."
(我正致力于提取2个实体之间的关系模式:在这种情况下,关系模式是“生于”实体“爱迪生”和“米兰”。 我需要从众多相关文本文件或网络文档中获得上述句子[如爱迪生传记或谷歌“爱迪生米兰”上的前500个链接]进行进一步处理)
答案 0 :(得分:0)
请澄清:
如果你的语料库不一致,那么正则表达式可能就不合适了。 如果是这种情况,你可能想要使用字典等 - 可能会有一些艰苦的工作。
答案 1 :(得分:0)
我的建议是不要指望正则表达式执行所有处理,并一次一步地处理文本。
我想要句子(句子边界是句号,然后是空格)。
精细。使用String split方法获取句子。使用句号(句点),后跟一个或多个空格作为正则表达式。我会把这个正则表达式的结构留给你。
用'他'和'米兰'这个词来表达
精细。编写一个方法来输入单词并将它们添加到List< String>。
编写另一种方法来浏览您使用另一种拆分方法创建的String数组,将该句子拆分为单词。再说一次,我将把这个正则表达式的结构留给你。
当你找到带有第一个单词的句子时,循环单词List,检查列表中的单词是否在单词边界上的句子中。如果找到所有单词,则会找到匹配的句子。如果找不到所有单词,请继续下一句。
一旦你通过分裂的String语句数组循环,你要么有一个句子,一个以上的句子,要么没有包含你的单词列表的句子。