美丽的汤在源文件中找到标记的位置?

时间:2018-03-02 21:07:13

标签: python html beautifulsoup

我正在使用BeautifulSoup从HTML文件中提取信息。我希望能够捕获信息的位置,即BS标签对象的标签的HTML文件中的偏移量。

有办法做到这一点吗?

我目前正在使用lxml解析器,因为它是默认值。

1 个答案:

答案 0 :(得分:1)

如果我正确地阅读了您的问题,您正在使用BeautifulSoup解析一些HTML,然后使用汤来识别标签。获得标记后,您将尝试在原始html字符串中查找标记的索引位置。

使用BeautifulSoup捕获标记的索引位置的问题是汤将根据给定的解析器改变html的结构。 lxml解析可能不会为字符表示提供字符,尤其是在汤中找到标记之后。

如果这将始终有效,那么你可能会尝试使用字符串的find方法来查找标签文本内容的位置,这应该保持不变。

#!python
# html is a string containing your html document
soup = BeautifulSoup(html,'lxml')
# target is the tag you want to find
target = soup.find('p')
# now we locate the text of the target inside of the html document
html.find((target.text))

此方法不会从标记的开头开始,但应该能够在html中找到标记的内容。

如果你想知道汤体内标签的索引,那就更可行了。