首页 > 教程
word文档提取目录
- 2025-04-08
- 1326 ℃
某提案汇总文档没有做目录,wps、word自带的功能也不能正确提取目录,就用python写了一个提取word文档目录的代码。
使用前需安装库:
pip install python-docx
修改了一下,用正则表达式来取提案号,避免取错
修改了二下,正则+开头来取提案号,且提案号数字最多三位,提高容错度
import re
from docx import Document
# 遍历文档中的段,取目录
def get_table_of_contents(doc):
toc = []
tmp=""
i=0
for paragraph in doc.paragraphs:
match i:
case 0:
if re.search("第\\d{1,3}号", paragraph.text) and paragraph.text.startswith("第") and len(paragraph.text)<=5:
tmp=paragraph.text
i=1
case 1:
if paragraph.text.startswith("案 由:"):
toc.append(tmp+" "+paragraph.text.strip("案 由:"))
i=0
return toc
# 打开Word文档
doc = Document("D:\\1.docx")
# 取目录
table_of_contents = get_table_of_contents(doc)
# 遍历打印目录
for para in table_of_contents:
print(para)上一篇:批量提取word文档标题
下一篇:Excel文件比较器
相关内容
Safari浏览器内容被地址...
php数组函数
JS压缩图片并保留图片元信息
PHP判断URL的合法性字符...
PHP读本地文件指定某行内容
HTML粘性滑块导航页面Dem...
splice变相跳出forEach循环
语音转文字,文字转语音...
-
fastadmin微信扫码登录网页登录
2021-06-01 1871
-
市面常用浏览器锐评,从优秀到垃圾
2025-09-27 1126
-
闲鱼数据的获取与下载
2025-04-08 1445
-
能自动帮你过人机验证的工具
2025-04-27 1469
-
黑客万能优盘,自动破解并获取保密数据到U盘
2025-06-16 1454
-
HTML清除浮动的几种方法
2025-04-07 1080
-
通过 SWOT 分析法,看美团优选的先天优势
2024-05-29 2708
-
小城市养老向公务员备考心得
2025-03-10 1498
-
大学可以不用买学校订的教材
2024-11-18 1658
-
摄影专业分享摄影技巧
2025-06-30 1380
文章评论 (0)
- 这篇文章还没有收到评论,赶紧来抢沙发吧~


进入有缘空间
点击分享文章