docx (Python)是什么格式?
admin
2023-10-15 10:05:22

当我们做一些数据统计或分析时,我们有时会遇到Execl格式或Word格式的文件。Execl格式数据提取和分析,我们在之前的文章中分享了一些非常有用的Python第三方库,本文主要介绍如何使用Pythonpython-docx模块从Word文件中提取文本信息和表格数据。

python-docx安装

在本文中,python-docx安装在Windows10系统和Python3环境中使用pip进行安装。

演示文本

为了方便理解,我们以python-docx.docx文件为例,演示如何用Python从其中提取文本数据表格数据,并开发自定义函数以字典的形式提取内容。python-docx.docx文件的内容如下:

在使用python-docx读取word文档中的文本之前,我们先了解一下python-docx模块的一些概念。

一个代表Word文档的Document对象。一个代表Word文档中一个段落的Paragraph对象。Paragraph对象的text属性代表段落中的文本内容。

提取docx文件中文本信息

python-docx用于提取docx文件中的文本数据,Python实现代码如下:

如上,我们逐行提取python-docx.docx文件中的文本信息,并存储在字典中。字典的键是行号,值是文本信息。执行上述代码后,输出结果如下:

提取docx文件中表格数据

python-docx用于提取docx文件中的表格数据,Python实现代码如下:

如上,我们逐行提取python-docx.docx文件中的表单信息,并存储在列表中。列表的每个元素都是一个表的数据,数据结构是一个字典。执行上述代码后,输出结果如下:

写入数据到docx文件中

我们还可以使用python-docx模块实现docx文件中的数据写入,如标题、字号、引用、列表、图片插入等。因为后面的代码注释比较详细,这里就不介绍了。代码如下:

执行上述代码,将写入的数据保存在testops—docx.docx文件中,内容如下:

提取包含指定关键字的文本

我们可以基于上述自定义封装函数extract_textextract_form并结合re模块来提取包含关键词的文本内容。代码实现如下:

如上,我们实现了提取docx文本中包含指定内容的文本信息,并输出内容所在的行,执行上述代码,输出结果为:

相关内容

热门资讯

金花创建房间/微信金花房卡怎么... 1.微信渠道:(荣耀联盟)大厅介绍:咨询房/卡添加微信:88355042 2.微信游戏中心:打开微...
金花房间卡/金花房卡如何购买/... 金花房间卡/金花房卡如何购买/新超圣金花房卡正版如何购买新超圣是一款非常受欢迎的游戏,咨询房/卡添加...
牛牛创建房间/金花房卡批发/神... 微信游戏中心:神牛大厅房卡在哪里买打开微信,添加客服【88355042】,进入游戏中心或相关小程序,...
链接牛牛/牛牛房卡游戏代理/鸿... 鸿运大厅房卡更多详情添加微:33549083、 2、在商城页面中选择房卡选项。 3、根...
科技实测!牛牛房卡怎么获得/乐... 微信游戏中心:乐酷大厅房卡在哪里买打开微信,添加客服【88355042】,进入游戏中心或相关小程序,...