使用php从docx文件中提取文本时,忽略文本引用/参考

时间:2018-11-26 12:37:27

标签: php regex

我们有一个.docx文件,我们需要使用PHP从中提取文本。 docx文件包含以下文本:

文献发现,与艾滋病毒有关的污名和歧视存在于家庭,工作环境,社会和医疗卫生等不同生活领域(1)。

(1)表示为文本内引文,字段引文为

>ADDIN CSL_CITATION { 
  "citationItems": [{
    "id": "ITEM-1",
    "itemData": { 
      "URL":"http://www.unaids.org/en",
      "accessed": {
        "date-parts":[["2018","11","4"]]
      },
      "id":"ITEM-1",
      "issued": {
        "date-parts":[["0"]]
      },
      "title":"UNAIDS",
      "type":"webpage"
    },
    "uris":[
      "http://www.mendeley.com/documents/?uuid=fedd4311-1013-3a16-bb82-27566ac11365"
    ]
  }],
  "mendeley": {
    "formattedCitation": "(1)",
    "plainTextFormattedCitation": "(1)",
    "previouslyFormattedCitation":"(1)"
  },
  "properties": {
    "noteIndex":0
  },
  "schema": "https://github.com/citation-style-language/schema/raw/master/csl-citation.json"
}}.

我们要在文本提取中删除字段引用文本。结果应为纯文本,不带引文。请帮助我们如何在PHP中删除此字段文本。

0 个答案:

没有答案