我正在尝试从scala中的网站获取整个html,然后解析或从中获取某些信息。 标准的html库对我来说不起作用,好像我正在尝试打印html内容它不打印整个HTML? 任何解决方案如何从网页获取完整的HTML内容?
答案 0 :(得分:4)
那么你可以使用优秀的scala-scraper库here: 它基本上是JSoup Java库的包装器 您可以编写如下所示的代码:(取自GitHub)
object NewsApp extends App {
val browser = JsoupBrowser()
val doc = browser.get("http://observador.pt")
println()
println("=== OBSERVADOR ===")
doc >> extractor(".logo img", attr("src")) |> println
doc >> extractorAt[String]("example-extractor") |> println
println("==================")
println()
doc >> ".small-news-list h4 > a" foreach println
}
答案 1 :(得分:0)
你是如何在Scala中获取html页面的? 我想你可以看看spray-client http://spray.io/documentation/1.2.3/spray-can/http-client/