我试图通过将HTML传递到单个字符串对象中来解析一些HTML。但是,当我粘贴HTML时,我在pyCharm中得到了很多下划线,我怀疑这是因为格式(请参见屏幕截图)。这会中断我的程序,因为我在\ n \ n上分割,这应该代表一个空行。
这是我粘贴代码后得到的:
但是,这就是我想要的,当我用\ n \ n分割字符串时,没有问题:
我尝试将要用作字符串的html粘贴到notePad中,然后转换为plainText,但无济于事。我还关闭了PyCharm中的任何“自动缩进”功能。谁能告诉我如何解决此问题,以便我可以粘贴更长的HTML块(结构相同,用空行分隔),仍然可以正常工作吗?还是当我粘贴较长的HTML片段时,有什么方法可以分割字符串(我的直觉是添加了一些选项卡,但我无法弄清楚)?
答案 0 :(得分:1)
我想说的是一种帮助方法,它无需访问实际的HTML / XML文本(而不是图像),并且可以看到两个示例文本彼此之间看起来是不同的
另一个选项,因为您使用的是BeautifulSoup,所以将“ fullHtmlString”变量作为参数传递给“ lxml”解析器(您必须在操作系统级别[libxml2
和{{1}上安装它) }]并通过之前的[[libxslt
为例),并让BeautifulSoup帮助您在打印时在HTML / XML文本中看到明显的错误
pip3.6 install lxml
您可以在PyCharm中一起使用“重新格式化代码”和“填充段落”选项来格式化整个代码,尤其是当根据PEP-0008在页边距之外时,通常结合使用,您通常会自己看到语法上的任何错误
希望它会有所帮助(: