您当前的位置:首页 > 电脑百科 > 数据库 > 百科

用什么算法可以快速检索数据?Bitmap了解一下

时间:2021-08-30 13:32:25  来源:  作者:指尖java

一个关于用户标签的需求

为了帮助公司精准定位用户群体,咱们需要开发一个用户画像系统,实现用户信息的标签化。

用户标签包括用户的社会属性、生活习惯、消费行为等信息,例如下面这个样子。

用什么算法可以快速检索数据?Bitmap了解一下

 

通过用户标签,我们可以对多样的用户群体进行统计。例如统计用户的男女比例、统计喜欢旅游的用户数量等。

为了满足用户标签的统计需求,小灰利用关系数据库设计了如下的表结构,每一个维度的标签对应着数据库表中的一列:

用什么算法可以快速检索数据?Bitmap了解一下

 

要想统计所有“90后”的程序员,该怎么做呢?

用一条求交集的SQL语句即可。

用什么算法可以快速检索数据?Bitmap了解一下

 

看起来很简单嘛,嘿嘿……

事情没那么简单,现在标签越来越多,例如,用户去过的城市、消费水平、爱吃的东西、喜欢的音乐……都快有上千个标签了,这要给数据库表增加多少列啊!

筛选的标签条件过多的时候,拼出来的SQL语句像面条一样长……

不仅如此,当对多个用户群体求并集时,需要用distinct来去掉重复数据,性能实在太差了……

用BITMAP算法解决问题

你听说过Bitmap算法吗?在中文里叫作位图算法。

这里所说的位图并不是像素图片的位图,而是内存中连续的二进制位(bit)所组成的数据结构,该算法主要用于对大量整数做去重和查询操作。

举一个例子,假设给出一块长度为10bit的内存空间,也就是Bitmap,想要依次插入整数4、2、1、3,需要怎么做呢?

很简单,具体做法如下。

第1步,给出一块长度为10的Bitmap,其中的每一个bit位分别对应着从0到9的整型数。此时,Bitmap的所有位都是0(用紫色表示)。

用什么算法可以快速检索数据?Bitmap了解一下

 

第2步,把整型数4存入Bitmap,对应存储的位置就是下标为4的位置,将此bit设置为1(用黄色表示)。

用什么算法可以快速检索数据?Bitmap了解一下

 

第3步,把整型数2存入Bitmap,对应存储的位置就是下标为2的位置,将此bit设置为1。

用什么算法可以快速检索数据?Bitmap了解一下

 

第4步,把整型数1存入Bitmap,对应存储的位置就是下标为1的位置,将此bit设置为1。

用什么算法可以快速检索数据?Bitmap了解一下

 

第5步,把整型数3存入Bitmap,对应存储的位置就是下标为3的位置,将此bit设置为1。

用什么算法可以快速检索数据?Bitmap了解一下

 

如果问此时Bitmap里存储了哪些元素,显然是4、3、2、1,一目了然。

Bitmap不仅方便查询,还可以去掉重复的整数。

你仔细想一想,你所做的用户标签能不能用Bitmap的形式进行存储呢?

我的每一条用户数据都对应着成百上千个标签,怎么也无法转换成Bitmap的形式啊?

别急,我们不妨转换一下思路,为什么一定要让一个用户对应多个标签,而不是一个标签对应多个用户呢?

信息不一定非要以用户为中心存储,也能够以标签为中心来存储,让每一个标签存储包含此标签的所有用户ID,就像倒排索引一样!

第1步,建立用户名和用户ID的映射。

用什么算法可以快速检索数据?Bitmap了解一下

 

第2步,让每一个标签存储包含此标签的所有用户ID,每一个标签都是一个独立的Bitmap。

用什么算法可以快速检索数据?Bitmap了解一下

 

这样一来,每一个用户特征都变得一目了然。

例如,程序员和“00后”这两个群体,各自的Bitmap分别如下所示。

用什么算法可以快速检索数据?Bitmap了解一下

 

BitMap好处

1.高性能的位运算

2.相比使用哈希表的话,每一个用户ID都要用整型数据存储,少则占用4字节(32bit),多则占用8字节(64bit)。而一个用户ID在Bitmap中只占1bit,内存是使用哈希表所占用内存的1/32,甚至更少!

3.Bitmap在对用户群做交集和并集运算时也有极大的便利

如何取反操作呢

我们可以使用异或 运算进行操作,即相同位为0,不同位为1。

同样是刚才的例子,我们给出“90后”用户的Bitmap,再给出一个全量用户的Bitmap。最终要求出的是存在于全量用户,但又不存在于“90后”用户的部分。

用什么算法可以快速检索数据?Bitmap了解一下

 

实现方式

长度计算公式

int nSize = (width * bitPixel + 64) / 64 ;

(高效写法是(((width * bitPixel + 64)>>6)) )

通过位移操作,可以很方便的扩容

而且越往上就是指数扩容,满足过亿级别数据量的时间复杂度也是O(1)

class MyBitmap:
    def __init__(self,size):
        self.words=[0]*(self.get_word_index(size-1)+1)
        self.size=size
    def get_bit(self,bit_index):
        if bit_index<0 or bit_index>self.size-1:
            raise Exception("超过Bitmap有效范围!")
        word_index=self.get_word_index(bit_index)
        return (self.words[word_index]&(1<<bit_index))!=0
    def set_bit(self,bit_index):
        if bit_index<0 or bit_index>self.size-1:
            raise Exception("超过Bitmap有效范围!")
        word_index=self.get_word_index(bit_index)
        self.words[word_index] |=(1<<bit_index)
    def get_word_index(self,bit_index):
        #右移6位,相当于除以64
        return bit_index>>6

bitMap=MyBitmap(128)
bitMap.set_bit(126)
bitMap.set_bit(75)
print(bitMap.get_bit(126))
print(bitMap.get_bit(78))


Tags:Bitmap   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
一个关于用户标签的需求为了帮助公司精准定位用户群体,咱们需要开发一个用户画像系统,实现用户信息的标签化。用户标签包括用户的社会属性、生活习惯、消费行为等信息,例如下面...【详细内容】
2021-08-30  Tags: Bitmap  点击:(52)  评论:(0)  加入收藏
作者:xmxiong,PCG 运营开发工程师数据仓库的数据统计,可以归纳为三类:增量类、累计类、留存类。而累计类又分为历史至今的累计与最近一段时间内的累计(比如滚动月活跃天,滚动周活...【详细内容】
2020-09-15  Tags: Bitmap  点击:(96)  评论:(0)  加入收藏
在前面我们分享过一次Redis常用数据结构和使用场景,文章对Redis基本使用做了一个简单的API说明,但是对于其中String类型中的bitmap(位图)我们需要重点说明一下,因为他的作用真的...【详细内容】
2020-07-27  Tags: Bitmap  点击:(370)  评论:(0)  加入收藏
BitMap从字面的意思,很多人认为是位图,其实准确的来说,翻译成基于位的映射,怎么理解呢?问题引入有一个无序有界int数组{1,2,5,7},初步估计占用内存44=16字节,因为只有4个数,很容...【详细内容】
2020-06-15  Tags: Bitmap  点击:(78)  评论:(0)  加入收藏
Android 中图片是以 bitmap 形式存在的,那么 bitmap 所占内存,直接影响到了应用所占内存大小,首先要知道 bitmap 所占内存大小计算方式:像素数 x 像素大小=图片长度(单位为像素)x...【详细内容】
2019-09-24  Tags: Bitmap  点击:(179)  评论:(0)  加入收藏
▌简易百科推荐
1增1.1【插入单行】insert [into] <表名> (列名) values (列值)例:insert into Strdents (姓名,性别,出生日期) values (&#39;开心朋朋&#39;,&#39;男&#39;,&#39;1980/6/15&#3...【详细内容】
2021-12-27  快乐火车9d3    Tags:SQL   点击:(1)  评论:(0)  加入收藏
最近发现还有不少做开发的小伙伴,在写存储过程的时候,在参考已有的不同的写法时,往往很迷茫, 不知道各种写法孰优孰劣,该选用哪种写法,以及各种写法的优缺点,本文以一个简单的查询...【详细内容】
2021-12-23  linux上的码农    Tags:sql   点击:(9)  评论:(0)  加入收藏
《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目,包括技术、学习、实用与各种有趣的内容。本期推荐的HasorDB 是一个全功能数据库访问工具,提供对象映射、丰...【详细内容】
2021-12-22  GitHub精选    Tags:HasorDB   点击:(5)  评论:(0)  加入收藏
作者丨Rafal Grzegorczyk译者丨陈骏策划丨孙淑娟【51CTO.com原创稿件】您是否还在手动对数据库执行各种脚本?您是否还在浪费时间去验证数据库脚本的正确性?您是否还需要将...【详细内容】
2021-12-22    51CTO  Tags:Liquibase   点击:(3)  评论:(0)  加入收藏
场景描述:由于生产环境的表比较复杂,字段很多。这里我们做下简化,只为说明今天要聊的问题。有两张表 tab1,tab2: tab1 数据如下: tab2 数据如下: 然后给你看下,我用来统计 name=&#3...【详细内容】
2021-12-20  Bald    Tags:SQL   点击:(5)  评论:(0)  加入收藏
前言知识无底,学海无涯,知识点虽然简单,但是比较多,所以将MySQL的基础写出来,方便自己以后查找,还有就是分享给大家。一、SQL简述1.SQL的概述Structure Query Language(结构化查...【详细内容】
2021-12-16  谣言止于独立思考    Tags:SQL基础   点击:(13)  评论:(0)  加入收藏
前言作为一名测试工程师,工作中在对测试结果进行数据比对的时候,或多或少要和数据库打交道的,要和数据库打交道,那么一些常用的 SQL 查询语法必须要掌握。最近有部分做测试小伙...【详细内容】
2021-12-14  柠檬班软件测试    Tags:SQL   点击:(15)  评论:(0)  加入收藏
话说C是面向内存的编程语言。数据要能存得进去,取得出来,且要考虑效率。不管是顺序存储还是链式存储,其寻址方式总是很重要。顺序存储是连续存储。同质结构的数组通过其索引表...【详细内容】
2021-12-08  小智雅汇    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
概述DBConvert Studio 是一款强大的跨数据库迁移和同步软件,可在不同数据库格式之间转换数据库结构和数据。它将成熟、稳定、久经考验的 DBConvert 和 DBSync 核心与改进的现...【详细内容】
2021-11-17  雪竹聊运维    Tags:数据库   点击:(26)  评论:(0)  加入收藏
一、前言 大家好,我是小诚,《从0到1-全面深刻理解MySQL系列》已经来到第四章,这一章节的主要从一条SQL执行的开始,由浅入深的解析SQL语句由客户端到服务器的完整执行流程,最...【详细内容】
2021-11-09  woaker    Tags:SQL   点击:(35)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条