公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210152370.1 (22)申请日 2022.02.18 (71)申请人 上海高德威智能交通系统有限公司 地址 201821 上海市嘉定区云谷路59 9弄6 号620室J 1452 (72)发明人 李再升 乔梁 程战战 钮毅 (74)专利代理 机构 北京博思佳知识产权代理有 限公司 1 1415 专利代理师 杨春香 (51)Int.Cl. G06V 30/41(2022.01) G06V 30/18(2022.01) G06V 10/82(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 一种表格解析方法、 装置及电子设备 (57)摘要 本申请实施例公开了一种表格解析方法、 装 置及电子设备。 本申请通过将目标文件输入至单 元格检测模型得到目标文件中各单元格的位置 信息, 然后依据目标文件中各单元格的位置信 息, 确定用于反映各单元格 之间行列关系的空间 邻接矩阵, 同时获得该目标文件中各单元格的单 元格特征信息, 依据上述的单元格特征信息和空 间邻接矩 阵对目标文件中的单元格进行解析得 到解析结果, 从而得到表格中每两个单元格之间 的对应关系, 以确定出表格中的有效信息 。 权利要求书3页 说明书13页 附图4页 CN 114550188 A 2022.05.27 CN 114550188 A 1.一种表格解析 方法, 其特 征在于, 该 方法应用于电子设备, 包括: 将目标文件输入至单 元格检测模型 得到所述目标文件中各 单元格的位置信息; 依据所述目标文件中各单元格的位置信 息, 确定用于反映各单元格之间行列关系的空 间邻接矩阵; 获得所述目标文件中各单元格的单元格特征信 息; 所述单元格的单元格特征信 息用于 标识该单元格; 依据所述单元格特征信息和所述空间邻接矩阵对所述目标文件中的单元格进行解析 得到解析结果, 所述解析结果至少包括: 任意两个不同单元格之间的键值对关系; 所述两个 不同单元格之 间的键值对关系用于指示所述两个单元格分别表示的内容具有对应关系、 以 及该对应关系成立的概 率。 2.根据权利要求1所述的方法, 其特征在于, 所述单元格检测模型至少包括: 表格检测 层、 局部掩码对齐层、 全局掩码对齐层和后处 理层; 所述表格 检测层, 用于检测所述目标文件中的表格区域; 所述局部掩码对齐层, 用于对所述表格区域进行非空单元格检测得到至少一个非空单 元格的候选区域, 获得每 个候选区域的局部掩码; 所述全局掩码对齐层, 用于确定所述表格区域中表格框线的位置, 以及所述表格区域 的全局掩码; 所述后处理层, 用于针对每一候选区域, 依据该候选区域的局部掩码和该候选区域在 所述全局掩码中对应的掩码, 对该候选区域进行优化, 将优化后的候选区域的坐标作为其 对应的非空单元格的坐标; 依据所述表格框线的位置和所述非空单元格的坐标, 确定空单 元格的坐标。 3.根据权利要求2所述的方法, 其特征在于, 所述局部掩码对齐层对所述表格区域进行 非空单元格检测得到至少一个非空单元格的候选区域, 获得每个候选区域的局部掩码包 括: 在所述表格区域中确定各个非空单元格的单元格边框以及该非空单元格内文本块的 位置, 将各 单元格边框围成的区域作为各非空单 元格对应的候选区域; 预测各个单元格边框中至少一行像素点中各像素点对应的水平软标签值; 所述水平软 标签值用于指示所述单 元格的置信度; 预测各个单元格边框中至少一列像素点中各像素点对应的垂直软标签值; 所述垂直软 标签值用于指示所述单 元格的置信度; 针对每一单元格边框, 将各个像素点对应的水平软标签值和垂直软标签值作为该单元 格边框对应的候选区域的局部掩码。 4.根据权利要求1所述的方法, 其特征在于, 获得所述目标文件中各单元格的单元格特 征信息包括: 针对所述目标文件中每一单元格, 依据所述目标文件中该单元格的位置信 息确定所述 位置信息对应的位置特 征; 对该单元格进行语义解析得到该单元格的语义特征; 单元格的语义特征用于指示单元 格中的数据内容; 对该单元格在所述目标文件中的图像进行图像特 征提取, 得到该 单元格的图像特 征;权 利 要 求 书 1/3 页 2 CN 114550188 A 2将该单元格的位置特征、 语义特征和图像特征中的至少之一确定为单元格的单元格特 征信息。 5.根据权利要求4所述的方法, 其特征在于, 所述对该单元格进行语义解析得到该单元 格的语义特 征包括: 将该单元格的位置信息和所述目标文件输入至文本识别工具中得到该单元格中的数 据内容; 将该单元格中的数据内容输入至语义特 征提取模型 得到该单元格的语义特 征。 6.根据权利要求4所述的方法, 其特征在于, 所述对该单元格在所述目标文件中的图像 进行图像特 征提取包括: 将该单元格的位置信息和单元格特征图像输入至图像特征提取模型得到该单元格的 图像特征; 其中, 所述单 元格特征图像用于指示该 单元格的版式信息 。 7.根据权利要求1所述的方法, 其特征在于, 所述依据所述单元格特征信 息和所述空间 邻接矩阵对所述目标文件中的单 元格进行解析 得到解析 结果, 包括: 将所述单元格特征信 息和所述空间邻 接矩阵输入至图卷积神经网络, 得到所述目标文 件中任意两个不同单 元格之间的键值对关系; 所述两个不同单元格之间的键值对关系是通过对该两个不同单元格的单元格特征信 息分别进行至少一次指定运 算确定的。 8.一种表格解析装置, 其特 征在于, 该装置应用于电子设备, 包括: 位置信息获取单元, 用于将目标文件输入至单元格检测模型得到所述目标文件中各单 元格的位置信息; 邻接矩阵获取单元, 用于依据所述目标文件中各单元格的位置信息, 确定用于反映各 单元格之间行列关系的空间邻接矩阵; 特征信息获取单元, 用于获得所述目标文件中各单元格的单元格特征信息; 所述单元 格的单元格特征信息用于标识该 单元格; 表格解析单元, 用于依据所述单元格特征信 息和所述空间邻 接矩阵对所述目标文件中 的单元格进行解析得到解析结果, 所述解析结果至少包括: 任意两个不同单元格之间的键 值对关系; 所述两个不同单元格之 间的键值对关系用于指示所述两个单元格分别表示的内 容具有对应关系 、 以及该对应关系成立的概 率。 9.根据权利要求8所述的装置, 其特征在于, 所述位置信 息获取单元中的单元格检测模 型至少包括: 表格 检测层、 局部掩码对齐层、 全局掩码对齐层和后处 理层; 所述表格 检测层, 用于检测所述目标文件中的表格区域; 所述局部掩码对齐层, 用于对所述表格区域进行非空单元格检测得到至少一个非空单 元格的候选区域, 获得每 个候选区域的局部掩码; 所述全局掩码对齐层, 用于确定所述表格区域中表格框线的位置, 以及所述表格区域 的全局掩码; 所述后处理层, 用于针对每一候选区域, 依据该候选区域的局部掩码和该候选区域在 所述全局掩码中对应的掩码, 对该候选区域进行优化, 将优化后的候选区域的坐标作为其 对应的非空单元格的坐标; 依据所述表格框线的位置和所述非空单元格的坐标, 确定空单权 利 要 求 书 2/3 页 3 CN 114550188 A 3
专利 一种表格解析方法、装置及电子设备
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:33:32
上传分享
举报
下载
原文档
(510.2 KB)
分享
友情链接
DB31-T 1341-2021 商务办公建筑格力用能指南 上海市.pdf
CSA CSA GCR 2021零信任落地案例集.pdf
GB-T 28453-2012 信息安全技术 信息系统安全管理评估要求.pdf
ISO 9241 820 2024 Ergonomics of human system interaction Part 820 Ergonomic guidance on interzctions in immersive environments including augmented reality and virtual reality.pdf
GB-T 42076.1-2022 生物技术 细胞计数 第1部分:细胞计数方法通则.pdf
DB43-T 1267-2023 机动车检验机构建设和运行管理规范 湖南省.pdf
T-NAIA 0215—2023 煤基厨灶用液体燃料.pdf
DB32-T 4111-2021 预应力混凝土实心方桩基础技术规程 江苏省.pdf
T-GDC 232—2023 企业数字化水平评价规范.pdf
蚂蚁集团王维强:大模型安全的探索与实践分享-大模型安全的“快”与“慢”.pdf
GB-T 40652-2021 信息安全技术 恶意软件事件预防和处理指南.pdf
GB-T 12971.1-2023 电力牵引用接触线 第1部分:铜及铜合金接触线.pdf
GB-T 36958-2018 信息安全技术 网络安全等级保护安全管理中心技术要求.pdf
GB-T 32082-2015 船舶管路用彩色识别标志.pdf
DB34-T 3897-2021 安徽科技大市场运营服务规范 安徽省.pdf
GB-T 30950-2014 闸位计.pdf
GB-T 43207-2023 信息安全技术 信息系统密码应用设计指南.pdf
民航 JJF(民航)0100-2008 C21001型冷却系统测试仪.pdf
GB-T 5599-2019 机车车辆动力学性能评定及试验鉴定规范.pdf
GB-T 38548.2-2020 内容资源数字化加工 第2部分:采集方法.pdf
交流群
-->
1
/
21
评价文档
赞助2元 点击下载(510.2 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。