您当前的位置:首页 > 互联网百科 > 大数据

数据匿名化技术介绍,你学会了吗?

时间:2023-09-07 13:12:08  来源:嘶吼网  作者:用九智汇

前言

近年来,随着数据挖掘,机器学习等技术的发展与深入,企业从普通用户处收集到的大量的数据就变得越来越有价值,对这些数据进行分析处理可以更好的了解用户的习惯和喜好,从而向用户提供更加个性化的服务,最终使得用户对商业以及研究的价值最大化。但是在使用包含有大量个人敏感信息的数据的过程中,不管是直接发布或者内部分析都可能使得不法分子收集到用户的隐私,损害用户的相关权益,因此有必要对输出的数据进行匿名化处理。

在个保法和GDPR/CCPA中,对匿名化(anonymization)的定义是相似的。 匿名化是指个人信息经过处理后,无论是否借助其他信息或工具都无法识别特定自然人且不能复原的过程。

一、匿名化常用技术手段

1、属性抑制

  • · 属性抑制是指删除数据集中某个属性的全部数据(删除某个列),该技术一般应用在匿名化过程开始时。
  • · 某些情况下,可以使用派生属性来提高数据集的可用性,例如抑制“工作开始时间”和“工作结束时间”,但是可以创建“工作年限”属性

处理前

姓名

公司

工作开始时间

工作结束时间

张三

abc

2015.9

2018.3

李四

tbc

2016.9

2022.4

王五

bcd

2013.9

2021.10

孙六

jbc

2011.9

2023.10

处理后,“姓名”抑制,派生“工作年限”

公司

工作年限(年)

abc

3

tbc

6

bcd

8

jbc

12

 
data = DataAnonymizationUtil.dropColumns(String... columns,data);data = DataAnonymizationUtil.createColumns(String... columns,data);

2、记录抑制

  • · 记录抑制是指删除数据集中的整条记录,删除唯一或不满足标准(例如k‑匿名)的异常记录。
  • · 删除记录可能会影响数据集,比如可能会影响统计数据种的平均数,中位数等。

处理前:

姓名

公司

工作开始时间

工作结束时间

张三

abc

2015.9

2018.3

李四

abc

2016.9

2019.4

王五

abc

2017.9

2020.10

孙六

abc

2011.9

2023.10

姓名属性抑制,以及时间派生属性后

公司

工作年限(年)

abc

3

abc

3

abc

3

abc

12

从上面可以看出,孙六的12年和其他人员的工作年限比起来会特别的大,如果其他的一些信息,可能会猜出第四行为孙六,因此应该将第四行删除

第四行记录抑制(删除)后

公司

工作年限(年)

abc

3

abc

3

abc

3

 
data = DataAnonymizationUtil.deleteRows(int[] rowNumber,data);

3、数据脱敏(字符屏蔽)

  • · 数据脱敏是数据字符的更改,例如通过符号*或x等对源数据进行替换修改,一般为部分脱敏,即应用与属性中的一些字符,主要应用于当隐藏属性的部分就满足所需的匿名程度时。
  • · 脱敏需要考虑屏蔽掉的字符是否反应原数据的相关信息。提前知道数据内本身的规则屏蔽尤其重要,以确保屏蔽到正确的字符。比如数据中的校验位(比如身份证的校验位),如果脱敏不彻底,校验位可能用于恢复脱敏数据。

处理前

工号

层级

工作年限

1234

6

1

1324

7

2

1423

8

3

脱敏后

工号

层级

工作年限

1***

6

1

1***

7

2

1***

8

3

 
data = DataAnonymizationUtil.maskColumn(String... columns,data);

4、假名化

  • · 用虚构的值替换识别数据。假名化也称为编码。假名可以是不可逆的,也可以是可逆(由原始数据的所有者),匿名化要求,需要采用不可逆假名。
  • · 持久化假名允许通过使用相同的化名来表示不同数据集中的同一个属性以进行关联。在某些情况下也需要使用不同的假名来表示不同数据集中的同一个人,以防止数据被关联。

处理前

姓名

绩效评分

工作年限

张三

60

1

李四

70

2

王五

80

3

处理后

姓名

绩效评分

工作年限

abc

60

1

123

70

2

xyz

80

3

 
data = DataAnonymizationUtil.pseudColumn(String... columns,data);

5、泛化(一般化)

  • · 泛化降低了数据的精度。例如,将人的年龄转换为年龄范围,或将精确位置转换为不太精确的位置。对于可以泛化并且对结果预期有用的属性,可以设计适当的规则进行泛化处理。
  • · 设计具有适当大小的数据范围。数据范围太大可能意味着数据可能被修改得太多,数据的价值会降低;而数据范围太小可能意味着数据几乎没有被修改,容易被重新识别,不满足要求。请注意,第一个和最后一个范围可以是更大的范围,以容纳这些末端通常较少的记录;

处理前

姓名

年龄

薪资

张三

25

25734

李四

35

43527

王五

30

37524

孙六

28

34257

处理后

姓名

年龄

薪资

张*

20-30

20000-30000

李*

30-40

40000-50000

王*

30-40

30000-40000

孙*

20-30

30000-40000

 
data = DataAnonymizationUtil.generalizeColumn(String... columns,data);

6、数据交换

  • · 交换的目的是重新排列数据集中的数据,使得各个属性值仍然在数据集中表示,但通常与原始记录不对应。
  • · 适用于分析只看聚合数据的情况,或者分析是在属性内分析时;换句话说,不需要分析记录级别的属性之间的关系。

处理前

姓名

年龄

薪资

张三

25

25734

李四

35

43527

王五

30

37524

孙六

28

34257

处理后

姓名

年龄

薪资

张*

28

25734

李*

30

37524

王*

35

43527

孙*

25

34257

 
data = DataAnonymizationUtil.swapRows(int[] rows,data);

7、数据扰动

  • · 原始数据集中的值被修改为略有不同即为数据扰动,对于准标识符(通常是数字和日期),与其他数据源结合时可能会被识别,并且值的轻微变化是可以接受的。该技术不应在数据准确性要求较高的情况下使用 
  • · 扰动程度应与属性值的范围成比例,比例太小,不满足匿名化要求;比例太大,最终值将与原始值相差太大,扰动后数据集的可用性可能会严重降低。

处理前

姓名

年龄

薪资

张三

25

25734

李四

35

43527

王五

30

37524

孙六

28

34257

处理后

姓名

年龄

薪资

张*

27

24257

李*

33

43527

王*

28

37524

孙*

30

35734

 
data = DataAnonymizationUtil.perturbeColumn(String... columns,data);

8、数据合成

  • · 它直接与原始数据分开,重新生成符合模式的数据集,而不是修改原始数据集,通常是当系统测试需要大量数据,但不能提供真实数据且要求提供的数据在某些方面应该是符合模式的,如格式、属性之 间的关系等。
  • · 数据在合成时需要研究原始数据集中的模式,并在创建“匿名”数据集(即合成数据)时应用这些模式。根据测试范围和要求,可以生成全部或部分合成数据;例如,在进行测试时,需要引用其他数据集,那么正在测试的少数数据需要保持其原始形式,但其他信息可以是合成的。
  • · 应用此技术时,可能需要额外注意异常值。出于测试目的,异常值通常非常有价值,因此在合成数据时需要特别注意异常值的合成。

处理前

姓名

年龄

薪资

张三

25

25734

李四

35

43527

王五

30

37524

孙六

28

34257

处理后

姓名

年龄

薪资

a*

27

34257

c*

33

33527

d*

28

27524

b*

30

45734

 
data = DataAnonymizationUtil.synthesis(data);

9、数据聚合

  • · 将数据集从记录列表转换为汇总值即为数据聚合,主要应用于不需要单独记录,而仅仅需要聚合数据的场景。
  • · 请注意执行聚合后记录太少的组。在某些情况下聚合数据的单个记录,加入额外知识可能会轻松推断原数据。

处理前

姓名

年龄

薪资

张三

25

25734

李四

35

43527

王五

30

37524

孙六

28

34257

处理后

年龄段

平均薪资

20-30

30000

30-40

40000

 
data = DataAnonymizationUtil.aggregate(data);

二、匿名化步骤

匿名化技术在提升数据隐私保护力度的同时,会牺牲数据的可用性,所以在设计和执行匿名化方案时可以遵循如下步骤

1、理解数据

研究原始数据,区分其中不同类型的数据字段(直接标识符,准标识符,普通字段属性),方便后续使用不同的处理方式,作为数据最小化的一部分,应首先删除结果数据集中不需要的任何数据属性。

数据匿名化技术介绍数据匿名化技术介绍

2、应用匿名化技术

筛选出需要匿名化的字段,结合数据使用场景和需求,组合使用不同的匿名化技术。

数据匿名化技术介绍数据匿名化技术介绍

3、评估重标识风险

对匿名化结果进行重标识风险分析,如果评估得出重标识风险超过预期,需要回步骤二深度应用或者重新选择匿名化方案。重标识(re-identification)指的是对匿名化的数据重新关联到原始个人信息主体的一种数据处理方式,它是匿名化的一个逆向操作。以下为常见的重标识风险

1)识别符泄露

指的是处理过程中对识别符字段的匿名化程度不够,导致对手可以直接获取到信息主体的直接/间接识别符。例如:手机号码直接计算哈希值,对手通过哈希碰撞方式,可以获得数据集中的全部或部分明文手机号码。

2)属性泄露

对手虽然无法从发布的数据集中获得信息主体的识别信息,但可以确定该主体某个属性的属性值

住址

性别

年龄

是否有糖尿病

荷花小区

20-30岁

荷花小区

20-30岁

荷花小区

90-100岁

如上例,可以知晓荷花小区有一位年龄大于90岁的老人,并且能确定该老人有糖尿病。该数据集虽然没暴露个人识别信息(不知道该老人是谁),但还是暴露了该自然人病史信息。

3)推理信息泄露

通过数据集中反映的规律来推断用户的某项属性,比如脱敏后数据集显示荷花小区50-60岁有30人,其中20人近视为100度到500度,10人近视为500度到1000度,则如果知道自然人是居住在荷花小区后,且年龄是50-60岁之间,就可以知道此人肯定是近视患者。

4、管理匿名数据发布风险

基于风险评估结果,结合其他技术措施和管理措施来应对已识别风险。

1)可用技术措施

  • · 对发布数据集进行严格的权限访问控制,限制可访问数据集用户的范围,并定期对访问权限进行检查;
  • · 对包含高度敏感信息的数据集,匿名化处理后再次进行加密;

2)可用管理措施

  • · 记录已共享数据集,防止不同数据集通过组合暴露个人隐私;
  • · 通过审批流程控制匿名化后的数据集访问的使用;
  • · 禁止组织内部成员对匿名化数据集未经批准进行重识别;
  • · 定期检查数据的重标识风险;
  • · 定期清理组织内部不再使用的匿名数据集;

四、K匿名化技术

1、K-匿名

K-匿名模型(k-anonymity)是一种用于评估匿名化/去特征化后数据的信息安全的模型。它要求处理后的数据集中每个准识别符至少有K条相同的记录,增加从数据集中直接筛选出记录并进行关联攻击的难度。

K-匿名的概念是由Latanya Sweeney和 Pierangela Samarati在1998年的一篇论文中最先提出的,其目的是为了解决如下问题:“给定一组结构化的具体到个人的数据,能否得出一组经过处理的数据,使我们可以证明数据中涉及的个人不能被再识别,同时还要保证数据仍具有使用价值。”使一组数据满足k-anonymity的过程称为K-匿名。

比如下面这个例子中,每个准识别符住址,性别,年龄至少有2个相同的记录。

处理前

住址

性别

年龄

身高是否大于180cm

荷花小区栋889室

25

荷花小区2栋889室

28

美丽小区30栋3室

34

美丽小区30栋3001室

45

美丽小区30栋1212室

32

荷花小区2栋601室

43

美丽小区31栋1210室

48

荷花小区12栋601室

41

处理后

住址

性别

年龄

身高是否大于180cm

荷花小区*栋*室

20-30

荷花小区*栋*室

20-30

美丽小区*栋*室

30-40

美丽小区*栋*室

40-50

美丽小区*栋*室

30-40

荷花小区*栋*室

40-50

美丽小区*栋*室

30-40

荷花小区*栋*室

40-50

K-匿名方法主要有两种:

1)数据抑制,主要是讲一些属性的值用*取代或者删除对应的属性;

2)数据泛化,将一些属性的精确值用更宽泛的值替代,比如说把年龄这个数字概括成一个年龄段。

判断是否K匿名的伪代码

public static boolean isKAnonymized(List data, int k) {
    Map dataMap = new HashMap<>();
    for (Object o : data) {
      ArrayList ar = (ArrayList) o;
      String sb = IntStream.range(0, ar.size()).mapToObj(i -> String.valueOf(ar.get(i)))
          .collect(Collectors.joining());
      dataMap.merge(sb, 1, Integer::sum);
    }
    return dataMap.keySet().stream().noneMatch(key -> dataMap.get(key) < k);
  }

如果不满足,可以通过泛化来对数据进行修改,示例代码为对里面int类型的数字进行泛化

public static List generalize(List data) {
    List data2 = new ArrayList<>();
    for (Object o : data) {
      ArrayList ar = (ArrayList) o;
      ArrayList ar2 = new ArrayList<>();
      for (int i = 0; i < ar.size(); i++) {
        Object o1 = ar.get(i);
        if (o1 instanceof Integer) {
          ar2.add((int) o1 / 10);
        } else {
          ar2.add(o1);
        }
      }
      data2.add(ar2);
    }
    return data2;
  }

K-匿名能保证以下三点:

  • · 攻击者无法知道某个人是否在公开的数据中
  • · 给定一个人,攻击者无法确认他是否有某项敏感属性
  • · 攻击者无法确认某条数据对应的是哪个人

尽管K-匿名化是一个可以较好解决数据匿名化问题的手段,但是如果处理不当,仍然可以从其他角度攻击匿名化后的数据,这些攻击包括:

攻击方法1:未排序匹配攻击

当公开的数据记录和原始记录的顺序一样时,攻击者可以猜出匿名化的记录属于谁。

例如:如果攻击者知道在数据集中李四为最后一项或张三为第一项,那么就可以确认,李四购买偏好是健身相关,而张三购买偏好为游戏相关。

性别

年龄

购买偏好

20-30

游戏相关

20-30

健身相关

攻击方法2:同质化攻击

某个K-匿名组内对应的敏感属性的值也完全相同,这使得攻击者可以轻易获取想要的信息。

例如:已知张三为男性,年龄为23岁,那么可以确认,张三购买偏好是健身相关,李四为女性,李四年龄为35岁,则可以确认李四的购买偏好为穿戴相关。

性别

年龄

购买偏好

20-30

健身相关

20-30

健身相关

30-40

穿戴相关

30-40

穿戴相关

攻击方法3:背景知识攻击

即使K-匿名组内的敏感属性并不相同,攻击者也有可能依据其已有的背景知识以高概率获取到其隐私信息。

例如:攻击者知道王六为女生,且知道她及其厌恶烹饪,那么从表中,攻击者可以确认王六的购买偏好是穿戴。相关

性别

年龄

购买偏好

20-30

游戏相关

20-30

健身相关

30-40

烹饪相关

30-40

穿戴相关

攻击方法4:补充数据攻击

假如一份数据被公开多次,且它们的k-匿名方式并不一样,那么攻击者可以通过关联多种数据推测用户信息。

例如:从一个表中对其进行不同列的2-匿名计算,得到两个不同的表,如果攻击者将两个表格的数据进行拼接,形成一个新的表,可能就会发现新表中存在的唯一数据。

2、L-多样性

L多样性(l−diversity)为克服k匿名模型缺陷,machanavajjhala等人提出的一种增强k匿名模型。即在公开的数据中,对于那些准标识符相同的数据,敏感数据必须具有多样性,这样才能保证用户的隐私不能通过背景知识等方法推测出来。

L-多样性是指相同类型数据中至少有L种内容不同的敏感属性,使得攻击者最多以 1/L的概率确认个体的敏感信息

住址

性别

年龄

购买偏好

美丽小区*栋*室

20-30

游戏相关

美丽小区*栋*室

20-30

健身相关

美丽小区*栋*室

20-30

烹饪相关

美丽小区*栋*室

20-30

穿戴相关

美丽小区*栋*室

20-30

游戏相关

美丽小区*栋*室

20-30

健身相关

美丽小区*栋*室

20-30

烹饪相关

美丽小区*栋*室

20-30

穿戴相关

在这个例子中,有8条相同的类型的数据,其中购买偏好有4种类型,那么在这个例子中,匿名化后的数据就满足4-多样性。

数据匿名化技术介绍数据匿名化技术介绍

3、T-相近性

T-相近性(t-closeness)是对L多样性匿名化的进一步细化处理,在对属性值进行处理时还需要增加考虑属性数据值的统计分布,T-相近性要求每个K匿名组中敏感属性值的统计分布情况与整个数据的敏感信息分布情况接近,不超过阈值T;

序号

住址

性别

年龄

购买偏好

1

美丽小区*栋*室

20-30

穿戴相关

2

美丽小区*栋*室

20-30

穿戴相关

3

美丽小区*栋*室

20-30

穿戴相关

4

美丽小区*栋*室

20-30

游戏相关

5

美丽小区*栋*室

30-40

游戏相关

6

美丽小区*栋*室

30-40

游戏相关

7

美丽小区*栋*室

30-40

游戏相关

8

美丽小区*栋*室

30-40

穿戴相关

从例子中可以看出 购买偏好(穿戴相关,游戏相关)在整个数据集中的概率分布为50%,但是在单个等价类中概率为25%和75%,不满足T-相近性,需要继续进行数据调整

序号

住址

性别

年龄

购买偏好

1

美丽小区*栋*室

20-30

穿戴相关

4

美丽小区*栋*室

20-30

游戏相关

5

美丽小区*栋*室

30-40

游戏相关

8

美丽小区*栋*室

30-40

穿戴相关

这样可以保证在整个数据集中和每个等价类中的购买偏好的概率相同,用数学来进行表达,如下

数据匿名化技术介绍数据匿名化技术介绍

假设在看到发布的数据集之前,观察者对个性敏感属性的先验看法(prior belief)为B0 B0,给观察者一个抹去准标识符的数据表,表中敏感属性的分布为 Q Q,根据 Q ,观察者的后验看法(posterior belief) 变为B1 。B1

根据敏感属性在整个数据集中的概率分布 调整在等价类中的敏感属性记录,得到概率分布为 P  P ,根据 PP ,观察者得到的后验看法变为 B2 。B2

L-多样性的目标是减小 B0 B0和 B之间的差异,而T-相近性的目标是减小 B1B1 和 B2B2 之间的差异。

也就是说敏感属性分布 QQ 在数据集中的分布是公共信息。我们不限制观察者获得的关于数据集的信息,但限制观察者能够了解关于特定个体的额外信息的程度。

理论上只要发布一个匿名化版本的数据,就会发布一个概率分布 QQ 。 发布的数据价值可以用 B0B0 与 B1B1 B1 之间的差别表示。二者差别越大,表明数据的价值越大。而 B1B1 B1 和B2 B之间的差别,就是我们需要保护的隐私信息,应该被尽可能限制。

直觉上来说,如果 P = Q P=Q ,那么 B1 B1B1 和 B2B2 B2 应该是相同的。如果 PP 和 QQ 很接近,那么 B1 B1B1 和 B2B2 B2 也应该很接近。若一个等价类的敏感属性取值分布与整张表中该敏感属性的取值分布的距离不超过阈值T,则称该等价类具有T-相近性。若一个表中所有等价类都有T-相近性,则该表也有T-相近性。

五、文章总结

本文介绍了常规化的匿名化技术手段,同时对匿名化步骤进行了说明,详细解释了可能会发生的重标识风险,最后介绍了K匿名化技术,以及为了防止K匿名化被攻击和数据可用性问题,衍生出来的L多样性和T相近性等技术

K匿名化是基于数据处理的匿名化算法,下篇我们会介绍基于算法的匿名化算法,差分隐私算法。

六、参考文献

  • · Li, N.; Li, T.; Venkatasubramanian, S. t-closeness: Privacy beyond k-anonymity and l-diversity. In Proceedings of the IEEE International Conference on Data Engineering, Istanbul, Turkey, 15–20 April 2007;
  • · An Introduction to Privacy for Technology Professionals-CIPT官方教程


Tags:数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密&mdash;&mdash;利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08  Search: 数据  点击:(7)  评论:(0)  加入收藏
训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
全网真的无数据可用了!外媒报道称,OpenAl、Anthropic等公司正在努力寻找足够的信息,来训练下一代人工智能模型。前几天,OpenAI和微软被曝出正在联手打造超算「星际之门」,解决算...【详细内容】
2024-04-08  Search: 数据  点击:(1)  评论:(0)  加入收藏
国家数据局首次召开全国性工作会议 释放哪些信号?
数据工作不仅事关经济社会发展、人们生产生活,也关乎国家发展与安全大局,其重要性不言而喻。我国是数据生产和应用大国,也是世界上首个提出数据要素理论的国家。正因为此,全国数...【详细内容】
2024-04-07  Search: 数据  点击:(4)  评论:(0)  加入收藏
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  Search: 数据  点击:(4)  评论:(0)  加入收藏
谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
IT之家 4 月 2 日消息,根据华尔街日报报道,谷歌为了结追溯到 2020 年的集体诉讼案,近日同意删除通过 Chrome 浏览器“无痕(Incognito)模式”下收集的用户数据。这起诉讼原告认为,...【详细内容】
2024-04-02  Search: 数据  点击:(7)  评论:(0)  加入收藏
数据可视化在网络安全中的关键作用
在当今数字化时代,网络安全已成为各大企业乃至国家安全的重要组成部分。随着网络攻击的日益复杂和隐蔽,传统的网络安全防护措施已难以满足需求,急需新型的解决方案以增强网络防...【详细内容】
2024-03-29  Search: 数据  点击:(19)  评论:(0)  加入收藏
如何正确选择NoSQL数据库
译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出,业界对于NoSQL数据库的需求正在持续上升。2022年,全球NoSQL市场的销售额已达73亿美元,预计到2032年将达...【详细内容】
2024-03-28  Search: 数据  点击:(13)  评论:(0)  加入收藏
京东小程序数据中心架构设计与最佳实践
一、京东小程序是什么京东小程序平台能够提供开放、安全的产品,成为品牌开发者链接京东内部核心产品的桥梁,致力于服务每一个信任我们的外部开发者,为不同开发能力的品牌商家提...【详细内容】
2024-03-27  Search: 数据  点击:(9)  评论:(0)  加入收藏
为什么数据库连接池不采用 IO 多路复用?
这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时,还是经常性采用c3p0,tomcat connection pool等技术来与DB连接,哪怕整个程序已经变成以...【详细内容】
2024-03-27  Search: 数据  点击:(12)  评论:(0)  加入收藏
Google搜索引擎索引的网页数量有多少?谷歌官方提供数据进行参考
Google搜索引擎索引的网页数量有多少?二十世纪九十年代,网页的索引数量成了一个各大搜索引擎相互对比的指标。小编记得2000年谷歌搜索引擎的首页搜索框上方,还标记着谷歌索引的...【详细内容】
2024-03-27  Search: 数据  点击:(12)  评论:(0)  加入收藏
▌简易百科推荐
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注&mdash;&mdash;用3个账号买同一航班同...【详细内容】
2024-01-30    中国青年网  Tags:大数据杀熟   点击:(32)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30    简易百科  Tags:大数据   点击:(40)  评论:(0)  加入收藏
数据采集新篇章:AI与大模型的融合应用
开篇在AIGC(人工智能与通用计算)应用中,大型语言模型(LLM)占据着举足轻重的地位。这些模型,如GPT和BERT系列,通过处理和分析庞大的数据集,已经极大地推动了自然语言理解和生成的边界...【详细内容】
2024-01-17  崔皓  51CTO  Tags:数据采集   点击:(50)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  InfoQ    Tags:大数据   点击:(40)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  木鸟杂记  微信公众号  Tags:大数据   点击:(48)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19    51CTO  Tags:大数据   点击:(41)  评论:(0)  加入收藏
利用生成对抗网络进行匿名化数据处理
在互联网时代,数据日益成为人们的生产资料。然而,在某些情况下,我们需要分享数据,但又需要保护个人隐私。这时,匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】
2023-12-18  技巧达人小影    Tags:数据处理   点击:(57)  评论:(0)  加入收藏
盘点那些常见的数据中心类型,你知道几个?
在数字化潮流的浪潮下,数据中心如同企业的神经系统,关系到业务的稳健运转。而在这个巨大的网络中,各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】
2023-12-07  数据中心之家  微信公众号  Tags:数据中心   点击:(65)  评论:(0)  加入收藏
数据中心的七个关键特征
随着信息技术的不断演进,数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征,了解它们是如何影...【详细内容】
2023-12-06  数据中心之家  微信公众号  Tags:数据   点击:(63)  评论:(0)  加入收藏
什么是数据解析?将数据转化为更好的决策
什么是数据解析?数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析(data analysis)和管理的流程、工具和技术,包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】
2023-12-06  计算机世界    Tags:数据解析   点击:(62)  评论:(0)  加入收藏
站内最新
站内热门
站内头条