不使用任何库函数(即不使用任何处理HTTP请求或cookie的函数)将网站的HTML内容提取到字符串中的最简单方法是什么? 我 不能 使用:
的OpenStream() url.openConnection()
它基本上必须是处理http请求代码的非常原始的代码,哦,是的我正在构建一个爬虫,这是基本上爬过大学网站来计算给定域中的页数。
答案 0 :(得分:1)
java.net.Socket是一个很好的起点。
你必须:
您需要阅读HTTP协议(有人在另一个答案中提供了链接)。 HttpURLConnection为您完成所有这些,但您基本上必须使用低级套接字自己实现协议。
答案 1 :(得分:0)
要从网页中提取内容,以下网址会提供以下代码:
在stackoverflow here,here和here上也回答了类似的问题。
我不知道为什么你不想使用任何库,JSOUP非常适合这样的东西,检索页面,处理和网络报废一般。
希望无论如何都有帮助。 干杯!
答案 2 :(得分:0)
使用YQL + jquery。 示例:http://developer.yahoo.com/yql/console/#h=select%20 *%20from%20html%20其中%20url%3D%22http%3A // finance.yahoo.com / q%3Fs%3Dyhoo%22%20%%0A%20%20%20%20% 20%20xpath%3D%27 // DIV [@ ID%3D%22yfi_headlines%22] / DIV [2] / UL / LI /一%27