我有一个来自网站的JavaScript源代码。
<script>"@context": "http://schema.org/","@type": "Product","name": "Shower head","image": "https://example.com/jpeg.png","description": "Hello stackoverflow","url": "link.com","offers": {"@type": "Offer","priceCurrency": "USD","price": "10.00","itemCondition": "http://schema.org/NewCondition","availability": "http://schema.org/InStock","url": "MyUrl.com","availableAtOrFrom": {"@type": "Place","name": "Geneva, NY","geo": {"@type": "GeoCoordinates","latitude": "42.8361","longitude": "-76.9874"}},"seller": {"@type": "Person","name": "Edward"}}}</script>
我尝试使用此JSoup代码提取最后一行"name": "Edward"
public class JsoupCrawler {
public static void main(String[] args) {
try {
Document doc = Jsoup.connect("https://example.com").userAgent("mozilla/17.0").get();
Elements temp = doc.select("script.name");
int i=0;
for (Element nameList:temp) {
i++;
System.out.println(i+ " "+ nameList.getElementsByTag(" ").first().text() );
}
}
catch (IOException e) {
ex.printStackTrace();
}
}
}
有人可以帮我这个,还是不可能?
答案 0 :(得分:1)
JSoup正在解释HTML。 <script>
元素的内容包含JavaScript,因此JSoup无法解释<script>
元素内的内容。
看起来<script>
元素的内容是以JSON格式化的。因此,您可以使用JSoup来获取<script>
元素的内容,然后尝试将此字符串转换为JSON解释库。如果你想深入了解这一点,请看这里:How to parse JSON in Java
如果这是一次性的,您可以相信<script>
元素的内容不会改变太多,您也可以使用正则表达式来到达所需的部分。但是,我建议使用JSON库。