首页 > 教程
word文档提取目录
- 2025-04-08
- 1357 ℃
某提案汇总文档没有做目录,wps、word自带的功能也不能正确提取目录,就用python写了一个提取word文档目录的代码。
使用前需安装库:
pip install python-docx
修改了一下,用正则表达式来取提案号,避免取错
修改了二下,正则+开头来取提案号,且提案号数字最多三位,提高容错度
import re
from docx import Document
# 遍历文档中的段,取目录
def get_table_of_contents(doc):
toc = []
tmp=""
i=0
for paragraph in doc.paragraphs:
match i:
case 0:
if re.search("第\\d{1,3}号", paragraph.text) and paragraph.text.startswith("第") and len(paragraph.text)<=5:
tmp=paragraph.text
i=1
case 1:
if paragraph.text.startswith("案 由:"):
toc.append(tmp+" "+paragraph.text.strip("案 由:"))
i=0
return toc
# 打开Word文档
doc = Document("D:\\1.docx")
# 取目录
table_of_contents = get_table_of_contents(doc)
# 遍历打印目录
for para in table_of_contents:
print(para)上一篇:批量提取word文档标题
下一篇:Excel文件比较器
相关内容
微信免费听歌,畅享 QQ 音乐
鼠标拖拽移动DIV
为什么当年历史课中西方...
关于二维码的原理以及美化
wordpress不使用插件解决...
为什么你的AI助手总是答...
云计算在电子商务和零售...
php上传图片到个人百度网盘
-
知乎热榜API、百度热点API、微博热搜API(开源)- 聚合热榜API开源
2025-04-07 1314
-
ChromeAI – 无限量、离线使用的 Chrome Dev 内置 Gemini Nano 大语言模型
2024-07-03 1817
-
微信深度清理,一次清理好几个G
2025-03-04 1430
-
解析PHP中的extract()函数
2021-05-10 1586
-
固态硬盘必做的SSD优化,大幅提升读取速度
2025-06-25 1128
-
图小小 – 开源、批量,图片压缩工具,支持 JPEG、PNG、WEBP、AVIF、SVG 和 GIF 图像
2024-07-03 1718
-
Coze 扣子 - 字节出品的超强 AI Bot 工具教程,免费无限白嫖 GPT4 方法
2024-04-07 2797
-
微信快速查看未读消息清理小红点
2025-06-22 1453
-
使用电脑一定要学会的20个小技巧
2024-02-19 876
-
微信聊天记录迁移
2024-11-18 1433
文章评论 (0)
- 这篇文章还没有收到评论,赶紧来抢沙发吧~


进入有缘空间
点击分享文章