解析不包含HTML的多个纯文本网站的最佳方法

时间:2014-01-04 17:17:18

标签: php python html parsing plaintext

我正在寻找一种方法来读取多个(超过50个)纯文本网站,并将某些信息解析为html表或csv文件。当我说“纯文本”时,我的意思是,虽然它是一个网络地址,它没有与之关联的任何html。这将是源的一个例子。我对此很陌生,正在寻求帮助,看看如何做到这一点。

update-token:179999210
vessel-name:Name Here
vessel-length:57.30
vessel-beam:14.63
vessel-draft:3.35
vessel-airdraft:0.00
time:20140104T040648.259Z
position:25.04876667 -75.57001667 GPS
river-mile:sd 178.71
rate-of-turn:0.0
course-over-ground:58.5
speed-over-ground:0.0
ais-367000000 {
    pos:45.943912 -87.384763 DGPS
    cog:249.8
    sog:0.0
    name:name here
    call:1113391
    imo:8856857
    type:31
    dim:10 20 4 5
    draft:3.8
    destination:
}
ais-367000000 {
    pos:25.949652 -86.384535 DGPS
    cog:105.6
    sog:0.0
    name:CHRISTINE
    call:5452438
    type:52
    status:0
    dim:1 2 3 4
    draft:3.0
    destination:IMTT ST.ROSE
    eta:06:00
}

感谢你们提出的任何建议。

1 个答案:

答案 0 :(得分:0)

首先将网站组合成csv或硬编码数组,然后将每个网站上的file_get_contents()/ file_put_contents()组合在一起。基本上:

$file = dataFile.csv
foreach($arrayOfSites as $site){

    $data = file_get_contents($site);
    file_put_contents($file, $data . "\n", FILE_APPEND);

}

编辑:抱歉试图快速完成此操作。这是完整的