编辑导语:我相信当你用大数据处理产品的时候,你会被各种专业技术术语搞得晕头转向,然后你就迷茫了。在本文中,作者对大数据中常用的一些技术术语进行了总结和分类。感兴趣的朋友不妨看看,说不定会用到。
大数据处理产品中经常会遇到一些专业术语,这里总结一下。
1.数据源类型1。宽表与窄表宽表:指的是具有许多字段的数据库表。通常指的是一个数据库表,其中关联了与业务实体相关的指标、纬度和属性。
它广泛用于数据挖掘模型训练前的数据准备。通过将相关字段放在同一个表中,可以极大地提供数据挖掘模型训练时迭代计算的消息问题。
虽然数据查询的效率有所提高,但是存在大量冗余。
窄表:严格遵循数据库设计的三个范式。数据冗余减少了,但是修改一个数据可能需要修改多个表。
数据库设计的三种范式:
确保每个列保持原子性;确保表中的每一列都与主键相关;确保每一列都与主键列直接相关,而不是间接相关。2.MySQLMySQL是一个关系数据库管理系统。关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大的仓库中,这提高了速度和灵活性。它是最流行的关系数据库管理系统之一。
3.Oracle是一个关系数据库管理系统。它是数据库领域的领先产品。该系统移植性好,使用方便,功能强大,适用于各种大、中、小型微机环境。
这是一种高效、可靠和高吞吐量的数据库方案。
4.GBaseGBase是南大通用数据技术有限公司推出的自有品牌数据库产品,在国内数据库市场具有较高的品牌知名度。
5.HBaseHBase是一个分布式、面向列的开源数据库。
不同于一般的关系数据库,它是一种适合非结构化数据存储的数据库。另一个区别是HBase基于列而不是行。
6.FTPFTP(FileTransferProtocol)是一套网络文件传输标准协议,可以访问远程资源,实现用户来回传输文件,管理目录,访问电子邮件等,即使两台计算机可能配备不同的操作系统和文件存储方式。
7.HDFSHDFS是一个Hadoop分布式文件系统。HDFS具有高容错性的特点,旨在部署在低成本的硬件上。
此外,它提供了访问应用程序数据的高吞吐量,这适用于那些具有非常大的数据集的应用程序。
二、数据计算1。MaxComputeMaxCompute是一项大数据计算服务,可以提供快速、全托管的PB级数据仓库解决方案,能够经济高效地分析处理海量数据。
2.FlinkFlink是一个框架和分布式处理引擎,用于无界和有界数据流的有状态计算。
Flink设计用于在所有常见的集群环境中运行,并以内存速度和任意规模执行计算。
3.KafkaKafka是一个高吞吐量的分布式发布-订阅消息系统,可以处理网站中消费者的所有动作流数据。
4.离线计算VS实时计算离线计算:通常称为& quot批处理& quot,指的是那些离线批量、高延迟的静态数据处理过程。
离线计算适用于实时性要求不高的场景,如离线报表、数据分析等。常见的计算框架:MapReduce、SparkSQL
实时计算:也被称为& quot实时流式计算& quot和& quot流式计算& quot,它指的是那些实时或低延迟的流数据处理过程。
实时计算通常用于实时性要求较高的场景,如实时ETL、实时监控等。通用计算框架:SparkStreaming、Flink
5.oltv OLAPOLTP(On-LineTransactionProcessing):它可以称为在线事务处理,一般用于在线业务交易系统,如银行交易和订单交易。
OLTP的主要特点是能够支持频繁的在线操作(添加、删除和修改)以及快速的访问和查询。
OLAP(On-LineAnalyticalProcessing): It可称为联机分析处理,广泛应用于数据仓库领域,支持复杂查询的数据分析。
,侧重于为业务提供决策支持。目前常见是的实时OLAP场景,比如Druid(ApacheDruid,不同于阿里Druid)、ClickHouse等存储组件能够较好的满足需求。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
HDFS是一个Hadoop分布式文件系统。详情在上一小节中已介绍。
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。
这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
概念”Map(映射)”和”Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。
它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
Spark是专为大规模数据处理而设计的快速通用的计算引擎,类似于HadoopMapReduce的通用并行框架,拥有HadoopMapReduce所具有的优点;
但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
数据仓库(全称:DataWarehouse;简称:DW/DWH),是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的。
它是一整套包括了ETL(extract-transform-load)、调度、建模在内的完整的理论体系。
数据仓库是专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势。而数据库是用于捕获和存储数据。
以数据搜索为基础,提供表使用说明、数据类目、数据血缘、字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。
即数据的来龙去脉,主要包含数据的来源、数据的加工方式、映射关系以及数据出口。
数据血缘属于元数据的一部分,清晰的数据血缘是数据平台维持稳定的基础,更有利于数据变更影响分析以及数据问题排查。
本文由@丸子不爱吃丸子原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于CC0协议