首页 > 教程
word文档提取目录
- 2025-04-08
- 1393 ℃
某提案汇总文档没有做目录,wps、word自带的功能也不能正确提取目录,就用python写了一个提取word文档目录的代码。
使用前需安装库:
pip install python-docx
修改了一下,用正则表达式来取提案号,避免取错
修改了二下,正则+开头来取提案号,且提案号数字最多三位,提高容错度
import re
from docx import Document
# 遍历文档中的段,取目录
def get_table_of_contents(doc):
toc = []
tmp=""
i=0
for paragraph in doc.paragraphs:
match i:
case 0:
if re.search("第\\d{1,3}号", paragraph.text) and paragraph.text.startswith("第") and len(paragraph.text)<=5:
tmp=paragraph.text
i=1
case 1:
if paragraph.text.startswith("案 由:"):
toc.append(tmp+" "+paragraph.text.strip("案 由:"))
i=0
return toc
# 打开Word文档
doc = Document("D:\\1.docx")
# 取目录
table_of_contents = get_table_of_contents(doc)
# 遍历打印目录
for para in table_of_contents:
print(para)上一篇:批量提取word文档标题
下一篇:Excel文件比较器
相关内容
网站访问量和服务器带宽...
下载B站视频,知道这些方...
可免费使用的网站CDN加速服务
图小小 – 开源、批...
微信消费者保护安全锁,...
怎么复制网站(禁止鼠标右...
注册申请微信公众号(服...
PHP简单的Curl的Get请求...
-
百度站长平台不刷新DNS信息
2024-05-10 1167
-
splice变相跳出forEach循环
2025-04-07 1115
-
什么是暗网,暗网不是冒险乐园,它是网络世界的禁区
2025-10-24 978
-
企业乱账清理技巧,财务会计人员必学
2025-06-30 1419
-
进化式产品创新
2024-05-29 1146
-
手机相机功能不会用看过来
2025-07-27 1267
-
Win7和Win10系统隐藏的上帝模式开启方法
2021-10-27 715
-
鼠标拖拽移动DIV
2025-04-07 1158
-
很上档次别具一格的代码注释方式
2025-04-07 1277
-
国内可直连的直播源
2024-07-14 3504
文章评论 (0)
- 这篇文章还没有收到评论,赶紧来抢沙发吧~


进入有缘空间
点击分享文章