应用错误收集

我有一个包含超过1800个链接的HTML文档。

我正在尝试解析所有这些链接的部分内容。

for link in soup.body.find_all('a', attrs={'data-tag':'Homepage Library'}):
    if link.attrs["href"]:
        links.append(link.attrs["href"])

print len(links)

即使原始文件中有超过1800个链接，Beautiful Soup也只找到266个链接。

html很大，所以我想也许bs4.BeautifulSoup接受的字符数量有限制？

如果没有，那么为什么它不会返回所有链接？

我确信有超过1800个带有属性数据标签的链接：“主页库”，因为我用shell脚本检查了这个：

grep 'data-tag="Homepage Library"' > links.txt

bs4.BeautifulSoup中的字符数是否有限制？

0 个答案: