我有一个包含超过1800个链接的HTML文档。
我正在尝试解析所有这些链接的部分内容。
for link in soup.body.find_all('a', attrs={'data-tag':'Homepage Library'}):
if link.attrs["href"]:
links.append(link.attrs["href"])
print len(links)
即使原始文件中有超过1800个链接,Beautiful Soup也只找到266个链接。
html很大,所以我想也许bs4.BeautifulSoup接受的字符数量有限制?
如果没有,那么为什么它不会返回所有链接?
我确信有超过1800个带有属性数据标签的链接:“主页库”,因为我用shell脚本检查了这个:
grep 'data-tag="Homepage Library"' > links.txt