我有一个PHP / HTML页面,我想从中提取数据但是在提交表单之后。
像:
实现这一目标的最快方法是什么?
我从webview开始 - 太多不需要的东西,所以我改为org.apache.http,这似乎没问题。
以下是我的代码的一部分:
HttpClient httpClient = new DefaultHttpClient();
HttpPost httpPost = new HttpPost("WEBSITE NAME");
List<NameValuePair> nameValuePairs = new ArrayList<NameValuePair>();
nameValuePairs.add(new BasicNameValuePair("THE NAME OF THE SEARCH B OX", "WORD I WANT TO BE PUT IN"));
httpPost.setEntity(new UrlEncodedFormEntity(nameValuePairs));
HttpResponse response = httpClient.execute(httpPost);
HttpEntity httpEntity = response.getEntity();
String sourceCode = EntityUtils.toString(httpEntity);
所以最后httpEntity获得了HTML - 然后我就被卡住了。有没有办法如何PARSE它得到例如 - 找到一个表并获得第二行的第二个单元格的内容?
答案 0 :(得分:1)
我推荐的一个小而强大的库是HtmlCleaner(106 kB,htmlcleaner.sf.net)。它解析几乎所有HTML,无论它多么丑陋,都将其转换为XML,然后让您访问它的某些部分。 他们的页面也有很好的例子。
答案 1 :(得分:0)