我到处寻找。试过很多“解决方案”,但没有一个帮助。 我需要从html代码中提取子网站的url地址。代码包含很多url,因此我需要以某种方式缩短结果列表,因此只留下我需要的链接。
详细说明:
<li class="container results-list-item clear-me ">
<div class="job-offer-content container h-card">
<div class="position-head container">
<div class="container ">
<h2 class="p-job-title">
<a href="/praca/android-developer-junior-senior/wroclaw/11636002" rel="nofollow"
title="praca Android developer (junior/senior) dolnośląskie" class="job-offer ">
<strong class="keyword">Android</strong> <strong class="keyword">developer</strong> (junior/senior)
</a>
</h2>
<h3 class="p-name company">
<a href="/pracodawca/starware-firma-informatyczna-praca/843242">
Starware Firma Informatyczna
</a>
</h3>
它只是html代码的一部分。正如我所说,它包含很多网址,所以像doc.select("a").first();
这样的想法无济于事。
我想从<h2 class="p-job-title">
部分中提取所有网址(它在代码中多次出现,因为它是在某个网站上搜索的结果)我也试过了doc.select("h2.p-job-title a[href]");
,但输出是{{1我需要Android developer (junior/senior)
,并且最好采用绝对形式)我认为www.mywebsite + url只能通过一些concat或者其他东西来制作,所以它不应该很难。
编辑:我的整个活动类'代码
/pracodawca/starware-firma-informatyczna-praca/843242
答案 0 :(得分:0)
您正在尝试从所选元素中获取文本。 mLista.add(jobNames.text() + "\n");
哪个错了。如果您需要链接,则必须从所选元素中获取attribute
href
。
尝试这样的事情
Elements class= doc.getElementsByClass("p-job-title");
Elements link= class.select("a");
String url = link.attr("href");