您当前的位置:首页 > 电脑百科 > 程序开发 > 编程百科

如何通过MD5反查身份证号?

时间:2019-08-19 09:44:23  来源:  作者:

题目设计一个身份证查询系统,将身份证号md5 之后存储,输入md5值查询对应的身份证号。

要求:成本低,查询速度快

设计思路:

  1. 将所有可能的身份证号做一个简单的统计计算数据量
  2. 根据数据量选择存储方式
  3. 查询

身份证生成规则:

身份号码是特征组合码,由前十七位数字本体码和最后一位数字校验码组成。排列顺序从左至右依次为六位数字地址码,八位数字出生日期码,三位数字顺序码和一位数字校验码。

地址码: 表示编码对象常住户口所在县(市、旗、区)的行政区划代码。对于新生儿,该地址码为户口登记地行政区划代码。需要没说明的是,随着行政区划的调整,同一个地方进行户口登记的可能存在地址码不一致的情况。行政区划代码按GB/T2260的规定执行。

出生日期码:表示编码对象出生的年、月、日,年、月、日代码之间不用分隔符,格式为YYYYMMDD,如19880328。按GB/T 7408的规定执行。原15位身份证号码中出生日期码还有对百岁老人特定的标识,其中999、998、997、996分配给百岁老人。

顺序码: 表示在同一地址码所标识的区域范围内,对同年、同月、同日出生的人编定的顺序号,顺序码的奇数分配给男性,偶数分配给女性。

校验码: 根据本体码,通过采用ISO 7064:1983,MOD 11-2校验码系统计算出校验码。算法可参考下文。前面有提到数字校验码,我们知道校验码也有X的,实质上为罗马字符X,相当于10.

校验码算法

将本体码各位数字乘以对应加权因子并求和,除以11得到余数,根据余数通过校验码对照表查得校验码。

加权因子表

+-----------------------------------------------------------+ 
|位置序号|1 |2 |3 |4 |5 |6 |7 |8 |9 |10|11|12|13|14|15|16|17| 
+-----------------------------------------------------------+ 
|加权因子|7 |9 |10|5 |8 |4 |2 |1 |6 |3 |7 |9 |10|5 |8 |4 |2 | 
+-----------------------------------------------------------+ 

校验码表:

+----------------------------------------------------+ 
| 余数 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 
+----------------------------------------------------+ 
| 校验码| 1 | 0 | X | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 
+----------------------------------------------------+ 

算法举例:

本体码为11010519491231002

  • 第一步:各位数与对应加权因子乘积求和1* 7+1 * 9+0 * 10+1 * 5+ *** =167
  • 第二步:对求和进行除11得余数167%11=2
  • 第三步:根据余数2对照校验码得X

因此完整身份证号为:11010519491231002X

预估数据量:

  1. 身份证号18位,前六位为地区码,中间八位为日期,日期后三位为顺序码,最后一位为校验位,占32个字节
  2. md5值为32位,占32个字节
  3. 计算最近100年数据,大约数据量为:3465x100x365x999=126346027500
  4. 数据以字符串存储,每条数据32+18=50B
  5. 则数据量为 126346027500 x 50=6317301375000B=6169239624k=6024648M=5883G=5.74T`

存储方式有文件存储、关系型数据库存储和es存储等。从结果可以看到有接近6T的数据,如果存入数据库或es成本较高,这里选择以文件的方式存储。

那有没有方式压缩存储空间呢?

  1. 身份证号最后一位为校验位,可以不存储,省略掉这一位会节约1/50点空间
  2. 不以字符串的方式存储,将身份证号以uint64存储,md5值也转化成两个uint64存储。uint64占8阁字节空间,这样一条数据的空间由50降为了 24。最终数据量为2.74T,节约一半多的空间。

那现在有一个问题,每个文件多大合适呢?

如果文件太大,每次将文件读取到内存中耗时较长,如果文件太小,则会生成太多的文件可能超出系统的文件数限制。

这里可以参考数据库索引的存储方式,设定每个数据文件的大小(2.8T数据可以设置每个数据文件1G左右。

数据生成后如何查询?

  1. 遍历,依次读取文件,查找数据,效率太低
  2. 这里参考数据库索引的查询方式,首先将数据按md5值排序后存储多个文件,记录每个文件中md5值的范围,输入md5值确定文件,再读取文件使用二分查找。
  3. 这时查找数据只需要读取一个文件,但是每个文件都有几百兆的数据,查询效率还是太低,再参考一下数据库索引,这里将文件内部再分页,记录每页的范围,和文件所自身记录的起始值一起生成索引,索引结构如图所示:
如何通过MD5反查身份证号?

 

索引数据结构为:

# 为了简化存储,这里file1、file2、file3、file4 为该文件第一条数据的md5值,也是对应的文件名
# 页的大小固定,所以二级索引只需要按顺序记录每页的第一个md5值即可
indexes = { 
 "file1": ["md51", "md52", "md53", "..."],
 "file2": ["md51", "md52", "md53", "..."], 
 "file3": ["md51", "md52", "md53", "..."], 
 "file4": ["md51", "md52", "md53", "..."], 
} 

第一层索引为文件索引,首先通过md5值判断md5值所在文件,比如输入的 start1 > md5 > start1,可以判断结果可能在file1 中;

第二层为文件内索引,通过md5值判断所在的页,读取根据offset读取该页的全部数据,再通过二分查找找到对应的身份证号。

代码实现源码地址:https://github.com/gusibi/oneplus/tree/master/idgenerator

使用方式:

1. go run main.go
2. curl http://127.0.0.1:8080/search?md5={id md5}

参考链接:

  • 源码地址 https://github.com/gusibi/oneplus/tree/master/idgenerator


Tags:MD5   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
Md5优点:快速计算m,具有单向性 one-way,不可由散列值推出原消息,但是如果密码过于简单就会有一定概率被暴力破解。密码存储常用方式:1、双重MD52、MD5+加盐3、双重MD5+加盐我一般...【详细内容】
2021-12-07  Tags: MD5  点击:(24)  评论:(0)  加入收藏
一、摘要算法摘要算法又称哈希算法。它表示输入任意长度的数据,输出固定长度的数据,它的主要特征是加密过程不需要密钥,并且经过加密的数据无法被解密。目前可以被解密逆向的只...【详细内容】
2021-03-16  Tags: MD5  点击:(276)  评论:(0)  加入收藏
一、RIP路由认证介绍前节回顾:前一节,我给大家介绍了RIP路由汇总,RIPV1手动验证,RIP手动路由汇总等本节引入:本节给大家讲解RIP路由认证,验证的两种方法包括:明文和加密认证。RIPv2...【详细内容】
2020-04-07  Tags: MD5  点击:(113)  评论:(0)  加入收藏
消息摘要算法是密码学算法中非常重要的一个分支,它通过对所有数据提取指纹信息以实现数据签名、数据完整性校验等功能,由于其不可逆性,有时候会被用做敏感信息的加密。消息摘要...【详细内容】
2020-02-25  Tags: MD5  点击:(48)  评论:(0)  加入收藏
基础1byte = 8bit (1字节等于8比特) Mysql数据库整数类型介绍 前言前两天写了一篇文章,是介绍如何将32-byte的MD5转为整型来保存,最后使用了两个ubiging和一个uint来保存,共使...【详细内容】
2020-01-03  Tags: MD5  点击:(160)  评论:(0)  加入收藏
MD5(Message-Digest Algorithm),想必大家都再熟悉不过了吧。通常我们调用第三方支付接口的时候都会遇到这种算法或者SHA等等类似的算法来做签名验证,由于其是不可逆的算法,对应破...【详细内容】
2019-11-29  Tags: MD5  点击:(115)  评论:(0)  加入收藏
这段时间刚好正在做软件安全的实验和课设,学习了各种加密算法,比如对称加密算法的DES,AES;非对称加密算法的RSA;再如今天要讲的主角-单向加密算法的MD5。为什么这么多算法,MD5成...【详细内容】
2019-11-14  Tags: MD5  点击:(72)  评论:(0)  加入收藏
本文目的在我的上一篇文章《MD5算法,看这篇就够了》中,我描述了md5算法的基本步骤,今天跟大家分享一下破解md5的原理。参考文献在文末,有兴趣的读者可以读读。符号文本中出现诸...【详细内容】
2019-10-12  Tags: MD5  点击:(500)  评论:(0)  加入收藏
MD5是一种加密算法,这种算法的用途我在另外一篇文章里写过,简单来说MD5就是把输入的字符或者文件,不论长短或者大小都转化为唯一的32位字符串,这套字符串可以用作“身份证明”或...【详细内容】
2019-09-26  Tags: MD5  点击:(182)  评论:(0)  加入收藏
MD5是一种不可逆的加密算法,全称是Message-Digest Algorithm 5(信息-摘要算法)。是当前计算机领域用于确保信息传输完整一致而广泛使用的散列算法之一。MD5的典型应用是对一段...【详细内容】
2019-09-09  Tags: MD5  点击:(195)  评论:(0)  加入收藏
▌简易百科推荐
本文分为三个等级自顶向下地分析了glibc中内存分配与回收的过程。本文不过度关注细节,因此只是分别从arena层次、bin层次、chunk层次进行图解,而不涉及有关指针的具体操作。前...【详细内容】
2021-12-28  linux技术栈    Tags:glibc   点击:(3)  评论:(0)  加入收藏
摘 要 (OF作品展示)OF之前介绍了用python实现数据可视化、数据分析及一些小项目,但基本都是后端的知识。想要做一个好看的可视化大屏,我们还要学一些前端的知识(vue),网上有很多比...【详细内容】
2021-12-27  项目与数据管理    Tags:Vue   点击:(2)  评论:(0)  加入收藏
程序是如何被执行的  程序是如何被执行的?许多开发者可能也没法回答这个问题,大多数人更注重的是如何编写程序,却不会太注意编写好的程序是如何被运行,这并不是一个好...【详细内容】
2021-12-23  IT学习日记    Tags:程序   点击:(9)  评论:(0)  加入收藏
阅读收获✔️1. 了解单点登录实现原理✔️2. 掌握快速使用xxl-sso接入单点登录功能一、早期的多系统登录解决方案 单系统登录解决方案的核心是cookie,cookie携带会话id在浏览器...【详细内容】
2021-12-23  程序yuan    Tags:单点登录(   点击:(8)  评论:(0)  加入收藏
下载Eclipse RCP IDE如果你电脑上还没有安装Eclipse,那么请到这里下载对应版本的软件进行安装。具体的安装步骤就不在这赘述了。创建第一个标准Eclipse RCP应用(总共分为六步)1...【详细内容】
2021-12-22  阿福ChrisYuan    Tags:RCP应用   点击:(7)  评论:(0)  加入收藏
今天想简单聊一聊 Token 的 Value Capture,就是币的价值问题。首先说明啊,这个话题包含的内容非常之光,Token 的经济学设计也可以包含诸多问题,所以几乎不可能把这个问题说的清...【详细内容】
2021-12-21  唐少华TSH    Tags:Token   点击:(10)  评论:(0)  加入收藏
实现效果:假如有10条数据,分组展示,默认在当前页面展示4个,点击换一批,从第5个开始继续展示,到最后一组,再重新返回到第一组 data() { return { qList: [], //处理后...【详细内容】
2021-12-17  Mason程    Tags:VUE   点击:(14)  评论:(0)  加入收藏
什么是性能调优?(what) 为什么需要性能调优?(why) 什么时候需要性能调优?(when) 什么地方需要性能调优?(where) 什么时候来进行性能调优?(who) 怎么样进行性能调优?(How) 硬件配...【详细内容】
2021-12-16  软件测试小p    Tags:性能调优   点击:(20)  评论:(0)  加入收藏
Tasker 是一款适用于 Android 设备的高级自动化应用,它可以通过脚本让重复性的操作自动运行,提高效率。 不知道从哪里听说的抖音 app 会导致 OLED 屏幕烧屏。于是就现学现卖,自...【详细内容】
2021-12-15  ITBang    Tags:抖音防烧屏   点击:(25)  评论:(0)  加入收藏
11 月 23 日,Rust Moderation Team(审核团队)在 GitHub 上发布了辞职公告,即刻生效。根据公告,审核团队集体辞职是为了抗议 Rust 核心团队(Core team)在执行社区行为准则和标准上...【详细内容】
2021-12-15  InfoQ    Tags:Rust   点击:(25)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条