Python,文本挖掘,docx到表(CSV)

时间:2017-03-22 12:56:44

标签: python text-mining

所以我对python很新,可能会问一个简单的问题。我正在寻找一种方法,我可以从docx文件中提取章节名称,章节名称和文本,并将其传输到第一行中我有章节名称的表格,第二行是章节名称,第三行本章的内容。我想在某些时候添加的另一件事是为文本的每个新段落添加一个新行。我有以下几个步骤,但我怀疑这是否是正确的方法:

  1. 打开word文档

    1.A。阅读word文档

    1.B。定义标题,副标题,脚注和&头

  2. 创建新文件

    2.A。创建包含9行的表

  3. 为每一行命名

  4. 使用预定义文字填写标题:法律文件

    "部分标题章节部分小节文章编号文章文本 文章标题参考"

  5. 定义类别的排名

    5.A。给表排名,第1行包含文档名称

    5.b:第2行包含章节名称,第3行节名称等。

  6. 从开始到第一个定义的排名

    读取word文档

    6.a。:复制已定义排名的文本

    6.B。附加文件将复制的文本归档到正确的行

  7. 我已经查看了docx和xlml,但我想知道它是否会给我我想要的结果。

1 个答案:

答案 0 :(得分:0)

您需要docx和CSV或openpyxl模块。你还需要努力。找出一种方法来区分您想要存储在CSV中的内容,然后将此检测和存储放入一个循环中,当没有其他任何操作时,它会感知并停止。对于这类问题,这是您最常见的建议。