首页 > 教程
word文档提取目录
- 2025-04-08
- 1296 ℃
某提案汇总文档没有做目录,wps、word自带的功能也不能正确提取目录,就用python写了一个提取word文档目录的代码。
使用前需安装库:
pip install python-docx
修改了一下,用正则表达式来取提案号,避免取错
修改了二下,正则+开头来取提案号,且提案号数字最多三位,提高容错度
import re
from docx import Document
# 遍历文档中的段,取目录
def get_table_of_contents(doc):
toc = []
tmp=""
i=0
for paragraph in doc.paragraphs:
match i:
case 0:
if re.search("第\\d{1,3}号", paragraph.text) and paragraph.text.startswith("第") and len(paragraph.text)<=5:
tmp=paragraph.text
i=1
case 1:
if paragraph.text.startswith("案 由:"):
toc.append(tmp+" "+paragraph.text.strip("案 由:"))
i=0
return toc
# 打开Word文档
doc = Document("D:\\1.docx")
# 取目录
table_of_contents = get_table_of_contents(doc)
# 遍历打印目录
for para in table_of_contents:
print(para)上一篇:批量提取word文档标题
下一篇:Excel文件比较器
相关内容
为什么当年历史课中西方...
可免费使用的网站CDN加速服务
微信的尊老爱幼模式,关...
什么是深网?有危险吗?...
微信怎么看好友是否把你...
jquery获取当前年月日时...
公网IPV6访问家庭设备,...
php批量去除文件bom代码
-
让你的DeepSeek能力翻倍的使用指南
2025-04-30 1276
-
微信公众号支付(JSAPI)对接方法,详细教程
2024-02-06 1442
-
微信商户号申请
2024-05-13 1471
-
class中函数的this指向
2025-04-07 921
-
小城市养老向公务员备考心得
2025-03-10 1456
-
如何与竞争对手合作
2024-05-29 1143
-
PHP超级Ping API接口 源码
2025-04-07 1210
-
最安全的PHP密码加密方法
2025-04-07 1250
-
推荐7款免费好用的国内外服务器传输工具
2025-03-04 1667
-
用宝塔(BT)来搭建本地PHP环境
2021-04-13 1845
文章评论 (0)
- 这篇文章还没有收到评论,赶紧来抢沙发吧~


进入有缘空间
点击分享文章