根据搜索从网站上进行抓取

时间:2018-11-24 18:18:53

标签: java jsoup

客观

在Java中,我想在https://pin1yin1.com/#我是英国人 enter image description here

处获得搜索结果的文本输出。

到目前为止我尝试过的一切

使用JSoup,我已经使用Jsoup.connect("https://pin1yin1.com/#%E6%88%91%E6%98%AF%E8%8B%B1%E5%9B%BD%E4%BA%BA").get();

连接到该页面

(数字和百分数将自己翻译成汉字)

面临的问题

当我运行getAllElements()来查看其抓取内容时,该代码仅适用于着陆页,即用户在进行搜索之前 所看到的内容,但没有找到任何搜索结果。

1 个答案:

答案 0 :(得分:1)

我检查了网站,您可以直接从其其余API获取数据,请尝试以下操作:

Document doc = Jsoup.connect("https://pin1yin1.com/pinyin/convert/?c=%E6%88%91%E6%98%AF%E8%8B%B1%E5%9B%BD%E4%BA%BA").get();

响应如下:

<html>
<head></head>
<body>
 { "q": "我是英国人", "s": "我是英国人", "t": "我是英國人", "p": 
["wo3","shi4","ying1","guo2","ren2"], "e": ["I; me; my","is; are; am; yes","British person"], "c": [1,1,3] }
 </body></html>