word文档提取目录
25-04-08 02:29
998
0
某提案汇总文档没有做目录,wps、word自带的功能也不能正确提取目录,就用python写了一个提取word文档目录的代码。
使用前需安装库:
pip install python-docx
修改了一下,用正则表达式来取提案号,避免取错
修改了二下,正则+开头来取提案号,且提案号数字最多三位,提高容错度
import re from docx import Document # 遍历文档中的段,取目录 def get_table_of_contents(doc): toc = [] tmp="" i=0 for paragraph in doc.paragraphs: match i: case 0: if re.search("第\\d{1,3}号", paragraph.text) and paragraph.text.startswith("第") and len(paragraph.text)<=5: tmp=paragraph.text i=1 case 1: if paragraph.text.startswith("案 由:"): toc.append(tmp+" "+paragraph.text.strip("案 由:")) i=0 return toc # 打开Word文档 doc = Document("D:\\1.docx") # 取目录 table_of_contents = get_table_of_contents(doc) # 遍历打印目录 for para in table_of_contents: print(para)
-
m3u8下载器
随着互联网的发展,越来越多的人开始喜欢观看在线视频。尤其是在线直播流媒体和多媒体项目中的M3U8格式视频,因其高清晰度和流畅度而受到欢... 1384 0 24-07-01 -
一个工具箱 - 好用的免费工具都在这里
一个工具箱网站致力于为您打造一个好用便捷的在线工具箱,无需注册和下载安装即可免费使用各种在线工具,涉及加密解密、视频音频、文字编辑... 1076 0 25-02-20 -
深入理解、应用及扩展 Twemproxy
Twemproxy 是 Twitter 的一个开源架构,它是一个分片资源访问的代理组件。如下图所示,它可以封装资源池的分布及 hash 规则,解决后端... 1010 0 24-05-24 -
图像修复增强软件 Perfectly Clear WorkBench
一、软件简介Perfectly Clear WorkBench 是一款专业AI图像修复软件,通过它你可以对清晰度以及色彩进行智能校正,上百种不同的效果任你... 963 0 24-05-30 -
jquery-SweetAlert页面提示插件
386 0 21-06-02 -
RESTful 应用实践:构建一个介于前后台之间的服务
在学习了 Node.js 相关的知识以后,我们怎么才能在实际工作中将这些知识应用起来呢?在这之前,我们应该思考,是完全应用 Node.js 改造... 1172 0 24-05-24 -
通向电影圣殿——北京电影学院影片分析课教材
今天、就是现在,抄写得工工整整的一厚摞书稿放在我面前的写字台上了。望着它,我心头不禁涌起许多滋味:是喜悦,是疲倦,是欣慰,是惆怅?说... 1209 0 24-07-10 -
西医综合考研历年真题
1990年全国硕士研究生考试西医综合试卷.pdf1991年全国硕士研究生考试西医综合试卷.pdf1993年全国硕士研究生考试西医综合试卷及答案.pdf1994... 1184 0 24-08-20
发表我的评论
共0条评论
- 这篇文章还没有收到评论,赶紧来抢沙发吧~