(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211259838.3
(22)申请日 2022.10.14
(71)申请人 安徽工业大学科技园有限公司
地址 243000 安徽省马鞍山市经济技 术开
发区 (示范园区) 嘉善科技园1号科研
楼
(72)发明人 邰伟鹏 卞义 李伟 陈业斌
(74)专利代理 机构 南京九致知识产权代理事务
所(普通合伙) 32307
专利代理师 严巧巧
(51)Int.Cl.
G06F 16/23(2019.01)
G06F 16/29(2019.01)
G06F 16/903(2019.01)
(54)发明名称
一种客户标准地址数据库的更新方法及系
统
(57)摘要
本发明公开了一种客户标准地址数据库的
更新方法及系统。 包括: 对文本信息拆分得到区
域地址数 组及详情地址数组; 拼接区域地址数组
及部分详情地址数组获得第一拼接地址, 基于第
三方地址标准化API对其补 充得到第一补全地址
及相应的经纬度数据; 基于Trie树结构将区域地
址数组匹配至分词匹配表内, 并对其补充得到补
充区域地址数组; 拼接补充区域地址数组及部分
详情地址 数组获得第二拼接地址, 并基于第三方
地址标准化API对其补充得到第二补全地址及经
纬度数据; 对比第一补全地址及第二补全地址各
地址层级匹配权重和, 基于较优权重和对应的补
全地址对 标准地址数据库更新。 本发 明基于文本
类, 特别是异地输入的文本类原始地址实现了标
准地址数据库更新。
权利要求书2页 说明书8页 附图2页
CN 115438061 A
2022.12.06
CN 115438061 A
1.一种客户标准 地址数据库的更新方法, 其特 征在于, 包括:
获取与原始地址对应的文本信 息, 并基于配置表对所述文本信 息进行拆分以得到相应
的区域地址数组及详情地址数组; 其中, 所述区域地址数组由高至低依次包括: 省级地址、
市级地址、 县级地址、 镇级地址及社区级地址; 所述详情地址数组由高至低依次包括: 楼栋
地址及门牌 地址;
拼接所述区域地址数组中的所有地址层级及所述详情地址数组中的最高地址层级以
获得第一拼接地址, 并基于第三方地址标准化API对所述第一拼接地址进行补充以得到第
一补全地址, 及与所述第一补全地址相应的经纬度数据;
基于Trie树结构将所述区域地址数组匹配至分词匹配表内, 并取相应子节点中的关联
地址对所述区域 地址数组进行补充以得到补充区域 地址数组;
拼接所述补充区域地址数组中的所有地址层级及所述详情地址数组中的最高地址层
级以获得第二拼接地址, 并基于第三方地址标准化API对所述第二拼接地址进行补充以得
到第二补全地址, 及与所述第二补全地址相应的经纬度数据;
通过
分别计算所述第一补全地址、 所述第二补全地
址中各地址层级的权重和, 并取与较大权重和对应的第一补全地址或第二补全地址作为预
标准地址; 其中, k为地址层级的总数, yi表示第i个 地址层级是否为空值, yi=0表示为空值,
yi=1表示有填充值, xi表示所述第 一补全地址或所述第 二补全地址中第i个地址层级与 所
述原始地址中第i个地址层级进行模糊匹配后的命中率, xj表示所述第一补全地址或所述
第二补全地址中第j个地址层级与所述原始地址中第j个地址层级进行模糊匹配后的命中
率, fij表示所述第一补全地址或所述第二补全地址中第j个 地址层级命中后对第i个 地址层
级的影响系数;
基于所述详情地址数组对所述预标准地址进行补充以作为标准地址, 并将所述标准地
址及与之对应的经纬度数据存 入标准地址数据库内以对其进行 更新。
2.根据权利要求1所述的客户标准地址数据库的更新方法, 其特征在于, 所述基于配置
表对所述文本信息进行拆分以得到相应的区域 地址数组及详情地址数组之前, 包括:
基于模糊语义算法对所述文本信息进行处理以修正其内的错误表述信息或缺陷表述
信息。
3.根据权利要求1所述的客户标准地址数据库的更新方法, 其特征在于, 所述将所述标
准地址及与之对应的经纬度数据存 入标准地址数据库内之后, 包括:
基于Trie树结构及多模式匹配算法对所述标准地址及所述分词匹配表间进行字符串
匹配;
若匹配失败则基于所述标准 地址在所述分词匹配表中构建新增地址节点。
4.根据权利要求1所述的客户标准地址数据库的更新方法, 其特征在于, 所述将所述标
准地址及与之对应的经纬度数据存 入标准地址数据库内之后, 包括:
对比所述标准地址与所述标准数据库中的原有地址以补充所述原有地址中缺少的地
址层级, 或修改所述原有地址中有误的地址层级。
5.一种客户标准 地址数据库的更新系统, 其特 征在于, 包括:
获取模块, 用于获取与原始地址对应的文本信息, 并基于配置表对所述文本信息进行权 利 要 求 书 1/2 页
2
CN 115438061 A
2拆分以得到相应的区域地址数组及详情地址数组; 其中, 所述区域地址数组由高至低依 次
包括: 省级地址、 市级地址、 县级地址、 镇级地址及社区级地址; 所述详情地址数组由高至低
依次包括: 楼栋地址及门牌 地址;
第一标准化模块, 用于拼接所述区域地址数组中的所有地址层级及所述详情地址数组
中的最高地址层级以获得第一拼接地址, 并基于第三方地址标准化API对所述第一拼接地
址进行补充以得到第一补全地址, 及与所述第一补全地址相应的经纬度数据;
第一预处理模块, 用于基于Trie树结构将所述区域地址数组匹配至分词匹配表内, 并
取相应子节点中的关联地址对所述区域 地址数组进行补充以得到补充区域 地址数组;
第二标准化模块, 用于拼接所述补充区域地址数组中的所有地址层级及所述详情地址
数组中的最高地址层级以获得第二拼接地址, 并基于第三方地址标准化API对所述第二拼
接地址进行补充以得到第二补全地址, 及与所述第二补全地址相应的经纬度数据;
对比模块, 用于通过
分别计算所述第一补全地址、 所
述第二补全地址中各地址层级的权重和, 并取与较大权重和对应的第一补 全地址或第二补
全地址作为 预标准地址; 其中, k为地址层级的总数, yi表示第i个 地址层级是否 为空值, yi=
0表示为空值, yi=1表示有填充值, xi表示所述第 一补全地址或所述第 二补全地址 中第i个
地址层级与所述原始地址中第i个地址层级进行模糊匹配后的命中率, xj表示所述第一补
全地址或所述第二补全地址中第j个地址层级与所述原始地址中第j个地址层级进行模糊
匹配后的命中率, fij表示所述第一补全地址或所述第二补全地址中第j个地址层级命中后
对第i个地址层级的影响系数;
第一更新模块, 用于基于所述详情地址数组对所述预标准地址进行补充以作为标准地
址, 并将所述标准 地址及与之对应的经纬度数据存 入标准地址数据库内以对其进行 更新。
6.根据权利要求5所述的客户标准 地址数据库的更新系统, 其特 征在于, 包括:
第二预处理模块, 用于基于模糊语义算法对所述文本信 息进行处理修正其内的错误表
述信息或缺陷表述信息 。
7.根据权利要求5所述的客户标准 地址数据库的更新系统, 其特 征在于, 包括:
匹配模块, 用于基于Trie树结构及多模式匹配算法对所述标准地址及所述分词匹配表
间进行字符串匹配;
新增模块, 用于若匹配失败则基于所述标准地址在所述分词匹配表中构建新增地址节
点。
8.根据权利要求5所述的客户标准 地址数据库的更新系统, 其特 征在于, 包括:
第二更新模块, 用于对比所述标准地址与 所述标准数据库中的原有地址以补充所述原
有地址中缺少的地址层级, 或修改所述原有地址中有误的地址层级。权 利 要 求 书 2/2 页
3
CN 115438061 A
3
专利 一种客户标准地址数据库的更新方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:42:47上传分享