使用<p style =“position来整理表格

时间:2017-08-14 20:48:48

标签: python web-scraping scrapy

&lt; p&gt;我想抓一个页面,其中有几个段落标记:&lt; / p&gt; &LT;预&GT;&LT;代码&GT; &lt; p style =“position:absolute; top:110px; left:65px”&gt;&#xa; <=“”code =“”>

我在每行中有4个元素如下:

<p style="position:absolute;top:110px;left:65px"><span style="virtical-align:top;font-size:9px;font-family:GothicText;color:#000000;letter-spacing:0.00000px;stringWidth:86px;">INFORMATION A_110</span></p> 
<p style="position:absolute;top:110px;left:173px"><span style="virtical-align:top;font-size:9px;font-family:GothicText;color:#000000;letter-spacing:1.64571px;stringWidth:115px;">INFORMATION B_110</span></p>
<p style="position:absolute;top:110px;left:403px"><span style="virtical-align:top;font-size:9px;font-family:GothicText;color:#000000;letter-spacing:1.55520px;stringWidth:194px;">INFORMATION C_110</span></p>
<p style="position:absolute;top:110px;left:814px"><span style="virtical-align:top;font-size:9px;font-family:GothicText;color:#000000;letter-spacing:1.59158px;stringWidth:151px;"> INFORMATION D_110</span></p> 
<p style="position:absolute;top:110px;left:1080px"><span style="virtical-align:top;font-size:9px;font-family:GothicText;color:#000000;letter-spacing:0.00000px;stringWidth:36px;"> INFORMATION E_110</span></p>

我想将INFORMATION A_110, B_110, C_110, D_110堆叠到每行的表中。

到目前为止我做了什么:我为某些页面记录了确切位置(left :1080px等),并为每个位置执行xparse以提取信息。问题是我没有自动检测位置(例如top:110px;left:1080px),我需要手动输入。

这种方法的缺点是我可以省略一些数据点(例如,如果现在位置变为top:111px;left:1080px而不是top:110px;left:1080px)。

0 个答案:

没有答案