我使用Jsoup创建了一个基本的Web scraper,以便从IMDB中提取电影信息。然而,当我刮掉Genre时,我无法帮助,但得到像这样的输出:
动作冒险幻想2011年4月27日(英国)
有没有一种方法可以使用 substring(),这样当它遇到一个数字时它会带走其余的字符串?在这种情况下,数字为27。
谢谢
答案 0 :(得分:1)
你想在27之前得到所有东西吗?
String target = targetString;
int targetLength = target.length();
int index = 0;
for (index = 0; index < targetLength; index++) {
if (Character.isDigit(target.charAt(i))) {
break;
}
}
return target.substring(0, index);
答案 1 :(得分:1)
您可以使用split
方法在第一次出现空格后跟一个数字分割字符串。
String genreInfo = "Action Adventure Fantasy 27 April 2011 (UK)";
String[] tokens = genreInfo.split("\\s\\d");
String genres = tokens[0];
System.out.println(genres);
答案 2 :(得分:0)
一个坏主意。 IMDB似乎提供了公共API described here,因此抓取是一种糟糕的方法。