Question

我正在尝试从scala中的网站获取整个html，然后解析或从中获取某些信息。标准的html库对我来说不起作用，好像我正在尝试打印html内容它不打印整个HTML？任何解决方案如何从网页获取完整的HTML内容？

Answer 1

那么你可以使用优秀的scala-scraper库here：它基本上是JSoup Java库的包装器您可以编写如下所示的代码:(取自GitHub）

object NewsApp extends App {
  val browser = JsoupBrowser()
  val doc = browser.get("http://observador.pt")

  println()
  println("=== OBSERVADOR ===")

  doc >> extractor(".logo img", attr("src")) |> println
  doc >> extractorAt[String]("example-extractor") |> println

  println("==================")
  println()

  doc >> ".small-news-list h4 > a" foreach println
}

Answer 2

你是如何在Scala中获取html页面的？我想你可以看看spray-client http://spray.io/documentation/1.2.3/spray-can/http-client/

Scala从网页获取html内容

2 个答案: