使用htmlParser和汤的Python HTML数据检索

时间:2018-12-27 17:08:58

标签: python html

在很多情况下,我不得不从html页面检索信息。因此,我在基本url上执行HTTP GET,然后在html页面的HTTP响应数据上执行HTTP GET,我必须检索一些信息才能在下一个HTTP GET中提供该信息。例如

对于这种数据的情况->

<td class="truncate js-name"><a href="someurl/14?path=Toni&amp;name=abc">abc3</a></td> 

我们使用

    soup = BeautifulSoup(data, "html.parser")
    for i in soup.select("td.truncate.js-name > a"):

现在我有了

<link href="/somePortal/bundles/styles/global?v=xIkoK3DrFy9JG85ulHMbV28CBHIlGEOtWvcFUlIffaY1" rel="stylesheet"/>

...      .....

   <script src="/somePortal/embedded/scripts/abc?v=7ve7EMIoF-bjIXkqkzhox3OwiYU-m2HsXttE0ATi9-81"></script>

....

    <script src="/somePortal/embedded/scripts/abc/views?v=2XCWYZkhZOuqO7OBFf8ux7uJDKRAVVCjiMmHzf09OdI1"></script>

我需要检索?v =之后的编码信息,并将其与单独的GET一起使用,并在?v =之前添加数据

也许是字典。我可以使用正则表达式,但我相信使用HTML解析器会更好。

一些开头:

1 个答案:

答案 0 :(得分:0)

原来是JSON格式,所以我使用json.loads检索数据