BeautifulSoup是否仍然可以处理两个连接的HTML文件?

时间:2015-04-20 06:23:51

标签: python html beautifulsoup concatenation

我有一个脚本将两个HTML文件连接成一个。它实际上只是在第一个之后插入第二个HTML代码。

htmlfile1 = urllib.urlopen(url1)
htmlfile2 = urllib.urlopen(url2)

htmltext1 = htmlfile1.read()
htmltext2 = htmlfile2.read()

name=symbolslist[i]+'.html'    

o=open(name, "w")  
o.write(htmltext1)
o.write(htmltext2)
o.close()    

在我的另一个帖子中,当解决方案正确时,我似乎无法使用bs4解析第二个HTML部分的信息。

我在第一个HTML上解析信息时没有问题。

主题: beautifulsoup parsing - dealing with superscript?

因此,我想知道美丽的汤是否适用于连接的HTML。

1 个答案:

答案 0 :(得分:0)

你不应该期望这个有效。解析器希望使用一个 HTML文档。

HTML解析器执行尝试修复损坏的HTML,因此您可能会获得一些结果。但是,由于public class PagerAdapter extends FragmentPagerAdapter { private String[] tabMenu; private int pageCount; private Context context; private Fragment[] fragments; public PagerAdapter(FragmentManager fm, Context context, Fragment[] fragments) { super(fm); this.context = context; tabMenu = context.getResources().getStringArray(R.array.tab_menu); pageCount = tabMenu.length; this.fragments = fragments; } @Override public Fragment getItem(int position) { return fragments[position]; } @Override public int getCount() { return fragments.length; } @Override public CharSequence getPageTitle(int position) { return tabMenu[position]; } } 属性值在HTML中必须是唯一的,因此期望事情无法按预期工作。

只需将HTML存储在单独的文件中,并为它们创建单独的id个对象。你可以在内存中有多个对象而不会出现问题。