如何从特定位置的html中提取文本?

时间:2016-01-09 05:32:29

标签: c# html .net winforms

html内容很长我只会展示其中的一部分:

<OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000"codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,0,0"WIDTH="50" HEIGHT="21" id="live"><PARAM NAME=movie VALUE="http://images.one.co.il/images/new/tv/live.swf"> <PARAM NAME=quality VALUE=high> <PARAM NAME=bgcolor VALUE=#E5E6E7> <EMBED src="http://images.one.co.il/images/new/tv/live.swf"quality=high bgcolor=#E5E6E7  WIDTH="50" HEIGHT="21" NAME="live"TYPE="application/x-shockwave-flash" PLUGINSPAGE="http://www.macromedia.com/go/getflashplayer"></EMBED></OBJECT>                                                 
</td></tr><tr><td colspan=100% background="http://images.one.co.il/images/new/tv/dots.jpg" height=2></td></tr><tr height=15><td colspan=100%></td></tr><tr><td colspan=100%><LINK title="OneStyle" href="../../css/One5.css" type="text/css" rel="stylesheet"><table dir=rtl width=100% height="24" bgcolor=#BFBFBF cellpadding=0 cellspacing=0><tr width=100% class=TVChannelBar valign=baseline align=right><td align=right valign=bottom><img id="_ctl0_Main_TVUI1_rptDvs__ctl0_rptPrograms__ctl4__ctl1_imgChannel" src="http://images.one.co.il/images/new/tv/channels/shabatsoccer.jpg" alt="ספורט 1" border="0" style="height:17px;" /></td></tr></table></td></tr><tr height=5><td colspan=100%></td></tr><tr class=TVProgramsTableFont height=21><td dir="rtl" width=50 align=left>                                      <nobr>
14:35&nbsp;</nobr></td><td align=center width=320>
כדורגל - גביע אנגלי, וויקום נגד אסטון וילה</font>                                           
</td><td width=80 align=center>                                                                          <OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000"codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,0,0"WIDTH="50" HEIGHT="21" id="live"><PARAM NAME=movie VALUE="http://images.one.co.il/images/new/tv/live.swf"> <PARAM NAME=quality VALUE=high> <PARAM NAME=bgcolor VALUE=#E5E6E7> <EMBED src="http://images.one.co.il/images/new/tv/live.swf"quality=high bgcolor=#E5E6E7  WIDTH="50" HEIGHT="21" NAME="live"TYPE="application/x-shockwave-flash" PLUGINSPAGE="http://www.macromedia.com/go/getflashplayer"></EMBED></OBJECT>                                                    
</td></tr><tr><td colspan=100% background="http://images.one.co.il/images/new/tv/dots.jpg" height=2></td></tr><tr class=TVProgramsTableFont height=21><td dir="rtl" width=50 align=left>                                         <nobr>
16:45&nbsp;</nobr></td><td align=center width=320>
כדורגל ליגת ווינר - בני יהודה - הפועל ת"א</font>                                            
</td><td width=80 align=center>

在本例中我要提取的是希伯来语中的这两行:

כדורגל - גביעאנגלי,וויקוםנגדאסטוןוילה

כדורגלליגתווינר - בנייהודה - הפועלת"א

也许以某种方式使用OBJECT classid? 无论如何这是我想从html中提取的行。 这是整个页面查看源链接

view-source

这是原始页面的链接:

Original page

如果可以使用颜色和任何内容提取整个表格并在硬盘上创建并保存它的简单图像,我想在原始页面中执行什么操作。

这是原始页面的屏幕截图以及我想要提取的内容:

Screenshot of what to extract as image

如果有可能的话,我想知道两件事:

  1. 如上所述,在本例中提取每行的文本为希伯来语中的行。所以我将列出所有行。

  2. 要像屏幕截图一样保存表格,我无法截取所有表格,因为我需要向下滚动查看,但也许可以将所有表格保存为图像。

1 个答案:

答案 0 :(得分:0)

另外,如果你想以某种方式操纵检索到的页面,你可能想尝试一些php DOM解析器。我发现PHP Simple HTML DOM Parser非常容易使用。