<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE pdf2xml SYSTEM "pdf2xml.dtd">
<page number="1" position="absolute" top="0" left="0" height="1188" width="918">
<text top="301" left="136" width="223" height="17" font="4"><b>– Jul-18 ABC </b></text>
<text top="495" left="136" width="258" height="17" font="4"><b>– Aug-16</b> <b>XYZ </b></text>
</page>
使用xml / lxml / lxml-xml解析器的Beautiful Soup无法正确解析 second <text>
元素。它删除了Aug-16
和XYZ
之间的空间。它将解析为
<text font="4" height="17" left="136" top="495" width="258"><b>– Aug-16</b> <b>XYZ </b></text>
这是不正确的。我也尝试使用from_encoding="utf-8"
选项制作汤。没有一个起作用。
答案 0 :(得分:0)
也许您需要尝试这种方式,
from bs4 import BeautifulSoup
text = """
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE pdf2xml SYSTEM "pdf2xml.dtd">
<page number="1" position="absolute" top="0" left="0" height="1188" width="918">
<text top="301" left="136" width="223" height="17" font="4"><b>– Jul-18 ABC </b></text>
<text top="495" left="136" width="258" height="17" font="4"><b>– Aug-16</b> <b>XYZ </b></text>
</page>
"""
soup = BeautifulSoup(text, 'html.parser')
for i in soup.find_all('text'):
print(i.get_text(separator=u' ', strip=False))
#Output as : – Jul-18 ABC
# – Aug-16 XYZ