当我们做一些数据统计或分析时,我们有时会遇到Execl格式或Word格式的文件。Execl格式数据提取和分析,我们在之前的文章中分享了一些非常有用的Python第三方库,本文主要介绍如何使用Pythonpython-docx模块从Word文件中提取文本信息和表格数据。
在使用python-docx读取word文档中的文本之前,我们先了解一下python-docx模块的一些概念。
一个代表Word文档的Document对象。一个代表Word文档中一个段落的Paragraph对象。Paragraph对象的text属性代表段落中的文本内容。
如上,我们逐行提取python-docx.docx文件中的文本信息,并存储在字典中。字典的键是行号,值是文本信息。执行上述代码后,输出结果如下:
如上,我们逐行提取python-docx.docx文件中的表单信息,并存储在列表中。列表的每个元素都是一个表的数据,数据结构是一个字典。执行上述代码后,输出结果如下:
执行上述代码,将写入的数据保存在testops—docx.docx文件中,内容如下:
如上,我们实现了提取docx文本中包含指定内容的文本信息,并输出内容所在的行,执行上述代码,输出结果为:
上一篇:那些长期喝茶的人后来都怎样了呢
下一篇:红糖姜茶怎么做治感冒