我有一个脚本将两个HTML文件连接成一个。它实际上只是在第一个之后插入第二个HTML代码。
htmlfile1 = urllib.urlopen(url1)
htmlfile2 = urllib.urlopen(url2)
htmltext1 = htmlfile1.read()
htmltext2 = htmlfile2.read()
name=symbolslist[i]+'.html'
o=open(name, "w")
o.write(htmltext1)
o.write(htmltext2)
o.close()
在我的另一个帖子中,当解决方案正确时,我似乎无法使用bs4解析第二个HTML部分的信息。
我在第一个HTML上解析信息时没有问题。
主题: beautifulsoup parsing - dealing with superscript?
因此,我想知道美丽的汤是否适用于连接的HTML。
答案 0 :(得分:0)
你不应该期望这个有效。解析器希望使用一个 HTML文档。
HTML解析器执行尝试修复损坏的HTML,因此您可能会获得一些结果。但是,由于public class PagerAdapter extends FragmentPagerAdapter {
private String[] tabMenu;
private int pageCount;
private Context context;
private Fragment[] fragments;
public PagerAdapter(FragmentManager fm, Context context, Fragment[] fragments) {
super(fm);
this.context = context;
tabMenu = context.getResources().getStringArray(R.array.tab_menu);
pageCount = tabMenu.length;
this.fragments = fragments;
}
@Override
public Fragment getItem(int position) {
return fragments[position];
}
@Override
public int getCount() {
return fragments.length;
}
@Override
public CharSequence getPageTitle(int position) {
return tabMenu[position];
}
}
属性值在HTML中必须是唯一的,因此期望事情无法按预期工作。
只需将HTML存储在单独的文件中,并为它们创建单独的id
个对象。你可以在内存中有多个汤对象而不会出现问题。