制作汤的问题:BeautifulSoup没有打开整个页面源,停在/ html

时间:2013-10-19 13:34:19

标签: python html web-scraping beautifulsoup

嗨,我很擅长刮痧,非常感谢你的帮助。

我正在尝试使用以下方式打开以下网址:

from bs4 import BeautifulSoup

import urllib2
import csv
import re

amicales = urllib2.urlopen("http://www.journal-officiel.gouv.fr/association/index.php?ACTION=Rechercher&HI_PAGE=1&HI_COMPTEUR=0&original_method=get&WHAT=&JTH_ID=014000%2F014040&JAN_BD_CP=&JRE_ID=%CEle-de-France%2FParis&JAN_LIEU_DECL=&JTY_ID=&JTY_WALDEC=&JTY_SIREN=&JPA_D_D=&JPA_D_F=&rechercher.x=36&rechercher.y=7&rechercher=Rechercher")
soup = BeautifulSoup(amicales)

我想从搜索查询中删除结果。问题是,我感兴趣的每个结果都以/ html结尾。 我相信这会迫使beautifulsoup在第一个搜索结果之后停止阅读源代码,这样就会忽略剩下的20个左右的结果。

这里,例如,仅包括结果“NATION INITIATIVE ET OU MACHROU3 WATTAN”:

print(soup.prettify())

任何人都可以帮我打开整个页面,而不仅仅是第一个/ html标签之前的所有内容吗?

1 个答案:

答案 0 :(得分:2)

亲爱的,那个网站彻底破碎了。每页只能有一个</html>标记。如果您查看来源,您会发现只有一个<html>代码(而不是50个</html>代码。

一种解决方法是首先删除所有</html>标记,然后再将其传递给BeautifulSoup。

page = page.replace("</html>", "")
soup = BeautifulSoup(page)