word文档提取目录
25-04-08 02:29
997
0
某提案汇总文档没有做目录,wps、word自带的功能也不能正确提取目录,就用python写了一个提取word文档目录的代码。
使用前需安装库:
pip install python-docx
修改了一下,用正则表达式来取提案号,避免取错
修改了二下,正则+开头来取提案号,且提案号数字最多三位,提高容错度
import re from docx import Document # 遍历文档中的段,取目录 def get_table_of_contents(doc): toc = [] tmp="" i=0 for paragraph in doc.paragraphs: match i: case 0: if re.search("第\\d{1,3}号", paragraph.text) and paragraph.text.startswith("第") and len(paragraph.text)<=5: tmp=paragraph.text i=1 case 1: if paragraph.text.startswith("案 由:"): toc.append(tmp+" "+paragraph.text.strip("案 由:")) i=0 return toc # 打开Word文档 doc = Document("D:\\1.docx") # 取目录 table_of_contents = get_table_of_contents(doc) # 遍历打印目录 for para in table_of_contents: print(para)
-
2025年海绵,启航,新文道管综全程班考研资料
0714写作课件.pdf2025考研管理类经济类逻辑写作讲义pdf.pdf2025考研管理类联考基础阶段测试卷-初数pdf.pdf2025考研管综数学集训讲义(第1-2... 1254 0 24-08-19 -
Defender Control v2.1 一款用于管理Windows Defender的小工具
Windows Defender是Windows自带的软件,可以帮助保护用户的计算机免受病毒,间谍软件和其他恶意软件(恶意软件)的侵害。但是有用户想要关... 826 0 25-02-09 -
remove - 连头发丝都能抠下娄的网站
一个连头发丝都能抠下来的抠图网站。 这个网站只有一个功能,就是抠图,并且给抠出来的图像添加背景。除此之外,就没有其他功能了! 但是,这个网站的抠图效果真的是,很让人惊喜,连头发丝都能抠下来,丝毫不拖泥带水! 1034 0 21-12-07 -
HTML5与CSS3基础教程
万维网成功的根基,是一种基于文本的标记语言──HTML,它简单易学,并且能被任何带有基本Web浏览器的设备识读。每个网页都至少用一点儿HTM... 1078 0 24-05-24 -
在线学折纸飞机 — Fold'N Fly 纸飞机
一个纸飞机数据库,包含易于遵循的折叠说明、视频教程和可打印的折叠计划。找到飞得最远、在空中停留时间最长的最好的纸飞机。包含叠纸飞机... 1106 0 25-01-08 -
如果你也想做公众号挣钱
公众号是怎么赢利的,毕竟很多人做公众号都是奔着赚钱的。1 流量主所谓流量主就是公众号推文文末和文中的广告卡片,按曝光量和点击量算钱... 659 0 25-03-10 -
零基础学HTML+CSS
现在市面上的许多可视化的网页编辑工具都达到了“所见即所得”的效果,这些图形化的开发工具可以直接编辑网页,而不用书写麻烦的标记。这使... 1017 0 24-05-24 -
2012教师招聘资料合集
(师范类)现代教育技术_练习题库及答案【豆丁★教育百科 整理】.pdf009年广东省教师招聘考试_教育学心理学_真题含答案_-_记事本【豆丁★教... 934 0 24-08-20
发表我的评论
共0条评论
- 这篇文章还没有收到评论,赶紧来抢沙发吧~