bs4.BeautifulSoup中的字符数是否有限制?

时间:2014-03-07 21:44:41

标签: python beautifulsoup

我有一个包含超过1800个链接的HTML文档。

我正在尝试解析所有这些链接的部分内容。

for link in soup.body.find_all('a', attrs={'data-tag':'Homepage Library'}):
    if link.attrs["href"]:
        links.append(link.attrs["href"])

print len(links)

即使原始文件中有超过1800个链接,Beautiful Soup也只找到266个链接。

html很大,所以我想也许bs4.BeautifulSoup接受的字符数量有限制?

如果没有,那么为什么它不会返回所有链接?

我确信有超过1800个带有属性数据标签的链接:“主页库”,因为我用shell脚本检查了这个:

grep 'data-tag="Homepage Library"' > links.txt

0 个答案:

没有答案