docx (Python)是什么格式?
admin
2023-10-15 10:05:22
0

当我们做一些数据统计或分析时,我们有时会遇到Execl格式或Word格式的文件。Execl格式数据提取和分析,我们在之前的文章中分享了一些非常有用的Python第三方库,本文主要介绍如何使用Pythonpython-docx模块从Word文件中提取文本信息和表格数据。

python-docx安装

在本文中,python-docx安装在Windows10系统和Python3环境中使用pip进行安装。

演示文本

为了方便理解,我们以python-docx.docx文件为例,演示如何用Python从其中提取文本数据表格数据,并开发自定义函数以字典的形式提取内容。python-docx.docx文件的内容如下:

在使用python-docx读取word文档中的文本之前,我们先了解一下python-docx模块的一些概念。

一个代表Word文档的Document对象。一个代表Word文档中一个段落的Paragraph对象。Paragraph对象的text属性代表段落中的文本内容。

提取docx文件中文本信息

python-docx用于提取docx文件中的文本数据,Python实现代码如下:

如上,我们逐行提取python-docx.docx文件中的文本信息,并存储在字典中。字典的键是行号,值是文本信息。执行上述代码后,输出结果如下:

提取docx文件中表格数据

python-docx用于提取docx文件中的表格数据,Python实现代码如下:

如上,我们逐行提取python-docx.docx文件中的表单信息,并存储在列表中。列表的每个元素都是一个表的数据,数据结构是一个字典。执行上述代码后,输出结果如下:

写入数据到docx文件中

我们还可以使用python-docx模块实现docx文件中的数据写入,如标题、字号、引用、列表、图片插入等。因为后面的代码注释比较详细,这里就不介绍了。代码如下:

执行上述代码,将写入的数据保存在testops—docx.docx文件中,内容如下:

提取包含指定关键字的文本

我们可以基于上述自定义封装函数extract_textextract_form并结合re模块来提取包含关键词的文本内容。代码实现如下:

如上,我们实现了提取docx文本中包含指定内容的文本信息,并输出内容所在的行,执行上述代码,输出结果为:

相关内容

热门资讯

(游戏辅助挂)摸一把跑得快有挂... 您好:摸一把跑得快有挂吗这款游戏可以开挂,确实是有挂的,需要了解添加微信【5415480】很多玩家在...
分享实测“新全游房卡哪里有低价... 【要素一】(KK)微信链接各大厅/房卡介绍微/83404491新全游是一款非常火爆的游戏应用,拥有众...
科普实测“乐享牛牛是不是有透视... 您好:乐享牛牛这款游戏可以开挂,确实是有挂的,需要了解加客服微信【8700483】很多玩家在乐享牛牛...
(辅助挂版本)智星菠萝德州挂真... 亲,您好智星菠萝德州挂真的假的这款游戏可以开挂,确实是有挂的,非常多玩家都在用呢。很多玩家在这款游戏...
八分钟解决“新大海房卡低价获取... 【要素一】(KK)微信链接各大厅/房卡介绍微/83404491新大海是一款非常火爆的游戏应用,拥有众...