什么是大数据(大数据中的技术概念)？_生活百科

什么是大数据(大数据中的技术概念)？

admin

2023-08-30 03:03:43

编辑导语：我相信当你用大数据处理产品的时候，你会被各种专业技术术语搞得晕头转向，然后你就迷茫了。在本文中，作者对大数据中常用的一些技术术语进行了总结和分类。感兴趣的朋友不妨看看，说不定会用到。

大数据处理产品中经常会遇到一些专业术语，这里总结一下。

1.数据源类型1。宽表与窄表宽表:指的是具有许多字段的数据库表。通常指的是一个数据库表，其中关联了与业务实体相关的指标、纬度和属性。

它广泛用于数据挖掘模型训练前的数据准备。通过将相关字段放在同一个表中，可以极大地提供数据挖掘模型训练时迭代计算的消息问题。

虽然数据查询的效率有所提高，但是存在大量冗余。

窄表:严格遵循数据库设计的三个范式。数据冗余减少了，但是修改一个数据可能需要修改多个表。

数据库设计的三种范式：

确保每个列保持原子性；确保表中的每一列都与主键相关；确保每一列都与主键列直接相关，而不是间接相关。2.MySQLMySQL是一个关系数据库管理系统。关系数据库将数据保存在不同的表中，而不是将所有数据放在一个大的仓库中，这提高了速度和灵活性。它是最流行的关系数据库管理系统之一。

3.Oracle是一个关系数据库管理系统。它是数据库领域的领先产品。该系统移植性好，使用方便，功能强大，适用于各种大、中、小型微机环境。

这是一种高效、可靠和高吞吐量的数据库方案。

4.GBaseGBase是南大通用数据技术有限公司推出的自有品牌数据库产品，在国内数据库市场具有较高的品牌知名度。

5.HBaseHBase是一个分布式、面向列的开源数据库。

不同于一般的关系数据库，它是一种适合非结构化数据存储的数据库。另一个区别是HBase基于列而不是行。

6.FTPFTP(FileTransferProtocol)是一套网络文件传输标准协议，可以访问远程资源，实现用户来回传输文件，管理目录，访问电子邮件等，即使两台计算机可能配备不同的操作系统和文件存储方式。

7.HDFSHDFS是一个Hadoop分布式文件系统。HDFS具有高容错性的特点，旨在部署在低成本的硬件上。

此外，它提供了访问应用程序数据的高吞吐量，这适用于那些具有非常大的数据集的应用程序。

二、数据计算1。MaxComputeMaxCompute是一项大数据计算服务，可以提供快速、全托管的PB级数据仓库解决方案，能够经济高效地分析处理海量数据。

2.FlinkFlink是一个框架和分布式处理引擎，用于无界和有界数据流的有状态计算。

Flink设计用于在所有常见的集群环境中运行，并以内存速度和任意规模执行计算。

3.KafkaKafka是一个高吞吐量的分布式发布-订阅消息系统，可以处理网站中消费者的所有动作流数据。

4.离线计算VS实时计算离线计算:通常称为& quot批处理& quot，指的是那些离线批量、高延迟的静态数据处理过程。

离线计算适用于实时性要求不高的场景，如离线报表、数据分析等。常见的计算框架：MapReduce、SparkSQL

实时计算:也被称为& quot实时流式计算& quot和& quot流式计算& quot，它指的是那些实时或低延迟的流数据处理过程。

实时计算通常用于实时性要求较高的场景，如实时ETL、实时监控等。通用计算框架：SparkStreaming、Flink

5.oltv OLAPOLTP（On-LineTransactionProcessing）:它可以称为在线事务处理，一般用于在线业务交易系统，如银行交易和订单交易。

OLTP的主要特点是能够支持频繁的在线操作(添加、删除和修改)以及快速的访问和查询。

OLAP（On-LineAnalyticalProcessing）: It可称为联机分析处理，广泛应用于数据仓库领域，支持复杂查询的数据分析。

，侧重于为业务提供决策支持。

目前常见是的实时OLAP场景，比如Druid（ApacheDruid，不同于阿里Druid）、ClickHouse等存储组件能够较好的满足需求。

三、分布式相关1.Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

2.HDFS

HDFS是一个Hadoop分布式文件系统。详情在上一小节中已介绍。

3.Hive

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载。

这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

4.MapReduce

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。

概念”Map（映射）”和”Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。

它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。

5.Spark

Spark是专为大规模数据处理而设计的快速通用的计算引擎，类似于HadoopMapReduce的通用并行框架，拥有HadoopMapReduce所具有的优点；

但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

四、数据仓库1.简介

数据仓库（全称：DataWarehouse；简称：DW/DWH），是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的。

它是一整套包括了ETL（extract-transform-load）、调度、建模在内的完整的理论体系。

2.与数据库的差异

数据仓库是专门为数据分析设计的，涉及读取大量数据以了解数据之间的关系和趋势。而数据库是用于捕获和存储数据。

3.分层ODS（OperationDataStore）：数据源头层，数据仓库源头系统的数据表通常会原封不动的存储一份，这称为ODS层（可理解为原始库），是后续数据仓库加工数据的来源。数据来源：业务库、埋点日志、消息队列。DWD（DataWarehouseDetails）：数据细节层，是业务层与数据仓库的隔离层。主要对ODS数据层做一些数据清洗和规范化的操作。数据清洗：去除空值、脏数据、超过极限范围的。DWB（DataWarehouseBase）：数据基础层，存储的是客观数据，一般用作中间层，可以认为是大量指标的数据层，可理解为知识库字典、常用标准库。DWS（DataWarehouseService）：数据服务层，基于DWB上的基础数据，整合汇总成分析某一个主题域的服务数据层，一般是宽表。用于提供后续的业务查询，OLAP分析，数据分发等。ADS（ApplicationDataService）：应用数据服务，该层主要是提供数据产品和数据分析使用的数据，一般会存储在ES、mysql等系统中供线上系统使用。4.数据地图

以数据搜索为基础，提供表使用说明、数据类目、数据血缘、字段血缘等工具，帮助数据表的使用者和拥有者更好地管理数据、协作开发。

5.数据血缘

即数据的来龙去脉，主要包含数据的来源、数据的加工方式、映射关系以及数据出口。

数据血缘属于元数据的一部分，清晰的数据血缘是数据平台维持稳定的基础，更有利于数据变更影响分析以及数据问题排查。

本文由@丸子不爱吃丸子原创发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于CC0协议

上一篇：城镇是什么意思(儿童涂鸦)

下一篇：高铁托运一只狗要多少钱(高铁宠物收费清单)

什么是大数据(大数据中的技术概念)？

相关内容

热门资讯