Scala从网页获取html内容

时间:2016-05-19 06:33:36

标签: html scala

我正在尝试从scala中的网站获取整个html,然后解析或从中获取某些信息。 标准的html库对我来说不起作用,好像我正在尝试打印html内容它不打印整个HTML? 任何解决方案如何从网页获取完整的HTML内容?

2 个答案:

答案 0 :(得分:4)

那么你可以使用优秀的scala-scraper库here: 它基本上是JSoup Java库的包装器 您可以编写如下所示的代码:(取自GitHub)

object NewsApp extends App {
  val browser = JsoupBrowser()
  val doc = browser.get("http://observador.pt")

  println()
  println("=== OBSERVADOR ===")

  doc >> extractor(".logo img", attr("src")) |> println
  doc >> extractorAt[String]("example-extractor") |> println

  println("==================")
  println()

  doc >> ".small-news-list h4 > a" foreach println
}

答案 1 :(得分:0)

你是如何在Scala中获取html页面的? 我想你可以看看spray-client http://spray.io/documentation/1.2.3/spray-can/http-client/