我今天开始玩JSoup。作为一个例子,我开始从这个site抓取代理。
在玩了很多之后,我能够抓住代理,但没有他们使用JavaScript的端口号。我想知道我们是否也可以使用JSoup删除这些端口号。由于这是我的第一次尝试,我想知道我采取的方法是否正确。所以我发布了可以获取代理的代码。
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.jsoup.safety.Whitelist;
public class ListLinks
{
public static void main(String[] args)
{
try
{
Document doc = Jsoup.connect("http://www.samair.ru/proxy/socks01.htm").get();
Elements content = doc.select("table.tablelist tbody tr ");
for(Element com: content)
{
Element fi=com.select("td").first();
String e=fi.text();
String safe=Jsoup.clean(e,Whitelist.basic());
System.out.println(safe);
}
}
catch(Exception e)
{
System.out.print("Problem");
}
}
}
答案 0 :(得分:0)
是的,你的方法还可以。
但有一件事:没有必要String safe=Jsoup.clean(e,Whitelist.basic());
因为String e=fi.text();
会给你一个干净的字符串。