从Word

时间:2016-05-27 23:26:24

标签: php web-scraping

我需要从HTML文件中提取数据。在Microsoft Word中,我有一些可以轻松转换为HTML的数据;我需要提取该数据并将其插入到SQL表中。

Record n.1354 - acidi_nucleici
Gli RNA sono diversi dal DNA perché                                                                                                                   
V - contengono uracile e ribosio                                                 
F - contengono uracile e timina                                                  
F - contengono uracile e desossiribosio                                          
F - contengono ribosio e timidina                                                
F - contengono ribosio e desossiribosio                                          

Record n.1417 - acidi_nucleici
Il DNA circolare si trova                                                                                                                             
V - nei mitocondri                                                               
F - nei nucleosomi                                                               
V - nei batteri                                                                  
F - nel nucleolo                                                                 
F - nel Golgi                                                                    

Record n.1418 - acidi_nucleici
Il DNA nelle cellule si trova                                                                                                                         
V - nel nucleo                                                                   
F - nei centri organizzatori microtubulari                                       
V - nei mitocondri                                                               
F - nei poliribosomi                                                             
F - nel citoplasma                                                               

我需要创建一个函数:

  1. 识别该行是选项还是问题(即 如果在线之前有" V - "或" F - "这是一个选择;如果有 是"记录n。*"这是个问题);
  2. 如果该行是一个选项,则识别它是否为假(" F - ")或为真(" V - ")。
  3. 我想过以这种方式构建SQL表:

    Column 1: id
    Column 2: text
    Column 3: question (0 = it's an answer; 1 = it's a question)
    Column 4: relate_to (if it is an answer, relate the answer to the question ID)
    Column 5: true_false (if it is an answer, is it true or false?)
    

    主要问题是:我甚至不知道从哪里开始! (除了使用file_get_contents函数之外,也许)。

0 个答案:

没有答案