推广

首页 > 行业资讯 > 推广 > 正文内容

推广

大数据基础知识

iseeyu2年前 (2024-02-21)推广137

image.png

大数据处理流程分为采集、存储、处理、可视化，其中需要安全、运维技术。

大数据的核心是Hadoop生态系统，Hadoop是目前应用最为广泛的分布式大数据处理框架，它包含大量的组件，从数据采集到数据存储、数据处理以及数据分析等一系列技术组件。

image.png

一、数据源说明

结构化数据：关系库记录
半结构化数据：日志、邮件等
非结构化数据：文件、视频、音频、网络数据流等

二、数据仓库

1、什么是数据仓库？

在计算中，数据仓库（DW或DWH）也称为企业数据仓库（EDW），是用于报告和数据分析的系统，被视为商业智能的核心组件。他们将当前和历史数据存储在一个地方，用于为整个企业的工作人员创建分析报告。

2、数据仓库两种操作方式的特点

①在线分析处理（OLAP）的特点是交易量相对较低。查询往往非常复杂，涉及到聚合。对于OLAP系统，响应时间是一种有效性度量。数据挖掘技术广泛使用OLAP应用程序。OLAP数据库以多维模式（通常为星型模式）存储汇总的历史数据。与数据集市相比，OLAP系统通常具有数小时的数据延迟，而数据集市预计延迟将接近一天。OLAP方法用于分析来自多个来源和视角的多维数据。OLAP中的三个基本操作是：总结（合并），钻取和切片和切块。

②联机事务处理（OLTP）的特点是大量短暂的在线事务（INSERT，UPDATE，DELETE）。OLTP系统强调非常快速的查询处理并保持多访问环境中的数据完整性。对于OLTP系统，有效性以每秒交易次数来衡量。OLTP数据库包含详细和当前的数据。用于存储事务数据库的模式是实体模型（通常是3NF）。规范化是对在该系统中数据建模技术的规范。

三、ETL与DM的区别

ETL/Extraction-Transformation-Loading——用于完成DB到DW的数据转存，它将DB中的某一个时间点的状态，“抽取”出来，根据DW的存储模型要求，“转换”一下数据格式，然后再“加载”到DW的一个过程，这里需要强调的是，DB的模型是ER模型，遵从范式化设计原则，而DW的数据模型是雪花型结构或者星型结构，用的是面向主题，面向问题的设计思路，所以DB和DW的模型结构不同，需要进行转换。

DM/Data Mining/数据挖掘——这个挖掘，不是简单的统计了，他是根据概率论的或者其他的统计学原理，将DW中的大数据量进行分析，找出我们不能直观发现的规律。

Hadoop

一、Hadoop

1、什么是Hadoop？

Hadoop的定义是：一个用java语言编写的便于大型数据集合的分布式储存和计算的软件框架。Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File System）。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

2、Hadoop特点是什么？

①高效率（Efficient）：分布式云计算，采用标准x86架构服务器大规模集群实现，每个模块都是一个离散的处理单元，使用并行计算技术，及群内各计算节点负载均衡，当某节点负荷过高时，可智能的将负荷转移到其他节点，并支持节点线性平滑扩展；分布式云存储，采用x86服务器的本地硬盘实现，使用分布式文件系统，每份数据至少保存在3个节点，保证存储设计的性能和可靠性目标。

②可靠性（Reliable）：能搞自身的维护数据的多个成本，并且在任务失败是自动的重新部署计算任务

③可扩容性（Scalable）：能可靠的储存和处理PB级的数据

④成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

数据采集工具

离线数据采集：sqoop
实时数据采集：ogg
日志数据采集：logstash\flume

sqoop

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中。
用于收集日志数据、对数据进行简单处理，并写道数据接收方。
Flume提供了从console（控制台）、RPC（Thrift-RPC）、text（文件）、tail（UNIX tail）、syslog（syslog日志系统），支持TCP和UDP等2种模式，exec（命令执行）等数据源上收集数据的能力。

flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
可线性扩展，具有数据一致性。
Agent主要由:source,channel,sink三个组件组成.
Source:
从数据发生器接收数据,并将接收的数据以Flume的event格式传递给一个或者多个通道channel,Flume提供多种数据接收的方式,比如Avro,Thrift,twitter1%等
Channel:
channel是一种短暂的存储容器,它将从source处接收到的event格式的数据缓存起来,直到它们被sinks消费掉,它在source和sink间起着桥梁的作用,channel是一个完整的事务,这一点保证了数据在收发的时候的一致性. 并且它可以和任意数量的source和sink链接. 支持的类型有: JDBC channel , File System channel , Memory channel等.
sink:
sink将数据存储到集中存储器比如Hbase和HDFS,它从channels消费数据(events)并将其传递给目标地. 目标地可能是另一个sink,也可能HDFS,HBase.

数据存储工具

hdfs：分布式文件存储系统，适合一次写、多次读的场景
kudu：分布式文件存储系统，可快速更新，支撑快速读写场景
hbase：分布式数据库
kafka：消息总线
hive：数据仓库

HDFS

hdfs：基于java的hadoop分布式文件存储系统，适合大文件分布式存储，一次写、多次读的场景，比如一个1T的文件，存储的时候，会存储在多台机器而不是单台机器。
特点：

易于扩展的分布式存储系统
对机器性能要求不高，运行在大量普通廉价机器
数据保存3个副本，副本丢失可自动回复
高扩展性，可任意增加、删除节点
结构：
分为主节点、从节点
1、主节点 namenode
接收用户操作请求
维护文件系统的目录结构
管理文件与数据块之间的关系，数据块与datanode之间关系
2、从节点 datanode
存储数据库
文件分成数据库存储
文件有多个副本

BLOCKSIZE：大文件会被切分成块，通常64或者128MB
每个数据库会被存储在不同的地方，通常是3个

HDFS命令：
1、列出文件和目录清单

//根目录下
hadoop fs -ls /
//当前目录下
hadoop fs -ls
//用户主目录
hadoop fs -ls /user/foo

2、hdfs目录操作

//建立目录
hadoop fs -mkdir /user/foo/newdir
//删除目录
hadoop fs -rmdir /user/foo/newdir

3、上传文件后目录

//上传文件
hadoop fs -put localfile /user/foo/newfile
//上传目录
hadoop fs -put localdir /user/foo/newdir
//追加上传
hadoop fs -apendToFile localfile /user/foo/oldfile

4、查看文件

//查看文件内容
hadoop fs -cat /user/foo/file
//查看文件末尾
hadoop fs -tail /user/foo/file

5、下载文件或目录

//下载文件
hadoop fs -get /user/foo/remotefile localfile

6、删除文件或目录

//删除文件
hadoop fs -rm /user/foo/remotefile

Hbase

Hbase是建立在HDFS之上的，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。

高可靠：存储3份冗余，保障高可靠
高性能、实时读写，海量数据处理能力，大数据并发数据的实时读写高性能
面向列：列独立索引
可扩展，可快速扩充集群
强一致性、行事务：同一行数据读写是原子的

image.png

hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。Hive主要包括用户接口、元数据存储、解释器、编译器、优化器、执行器等组成部分。

用户接口：有3个，cli、client、wui。client是hive客户端，用户连接到hive server,wui通过浏览器访问hive。
元数据存储：hive把元数据存储在数据库，元数据包括表名、列、分区、属性、所在目录等。连接到数据库的模型分为三种：单用户模式、多用户模式、远程服务器模式
Diver（解释器、编译器、优化器、执行器）：产生查询计划，存储在hdfs，随后由mapreduce调用执行。
学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。
最适合应用在基于大量不可变数据的批处理作业。
用来做数据仓库数据加工的SQL引擎，将SQL转换成多个作业（JOB）
构建于hadoop的hdfs和mapreduce之上，用于管理和查询结构化、非结构化的数据仓库。
目的是让会使用SQL的工程师来进行数据加工。
hive命令
1、数据库操作

//建立数据库
create database db1
//删除数据库
drop database db1
//切换数据库
user db1

2、表操作

//显示库中所有表
show tables
//建表
create table table1(aaa string)
//删除表
drop table table1

spark-SQL

用来做数据仓库数据加工的工具，是spark生态的一个子系统，与hive一样把SQL处理成一个个job，由于是用内存计算，比mapreduce快，用于批量加工、交互式分析

impala

专注于数据仓库下的OLAP，一般用于前台交互式分析查询数据用，大数据处理性能较差

Elasticsearch

文档型数据查询，可用于多字段查询，适用于客户标签查询、客户资料查询等场景。

kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。是一个开源流处理平台，由scala和java编写。
是一个分布式队列系统。利用磁盘顺序读写实现持久化，完全分布式结构，基于zookeeper实现了消息生产者和消费者的负载均衡。支持多个消费者做为一个整体来消费消息，支持多主题的消息发布、订阅模式。
优点：

高吞吐量、低延迟：每秒可以处理几十万条消息，它的延迟最低只有几毫秒
可扩展性：kafka集群支持热扩展
持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失
容错性：允许集群中节点故障（若副本数量为n,则允许n-1个节点故障）
高并发：支持数千个客户端同时读写
常用术语：
Broker：Kafka集群包含一个或多个服务器，这种服务器被称为broker
Topic：每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息分开存储，逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处）
Partition：Partition是物理上的概念，每个Topic包含一个或多个Partition.
Producer：负责发布消息到Kafka broker
Consumer：消息消费者，向Kafka broker读取消息的客户端。
Consumer Group：每个Consumer属于一个特定的Consumer Group（可为每个Consumer指定group name，若不指定group name则属于默认的group）。

适用场景：

日志收集：可以用Kafka可以收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer
消息系统：解耦生产者和消费者、缓存消息等
用户活动跟踪：kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索、点击等活动
运营指标：kafka也经常用来记录运营监控数据
流式处理：比如spark streaming和storm

数据处理工具

离线计算：mapreduce
DAG计算：tez
内存计算：spark
实时计算：spark streaming（微批处理）、flink

mapreduce

Mapreduce是一种分布式计算模型，主要用于搜索领域，处理海量数据的计算问题。由两个阶段组成，Map和reduce,用户主需要实现map和reduce两个函数，就可以实现分布式计算。
特点：

高可靠性：处理数据的能力值得信赖。
高扩展性：在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高效性：能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
高容错性：能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
MapReduce计算框架采用master/slave架构。一个Hadoop集群是有一个Jobtracker和—定数目的Tasktracker组成。
MapReduce计算模型适用于批处理任务。
MapReduce是一个线性可扩展模型，服务器越多，处理时间越短。

spark

spark基于内存计算的开源集群分布式计算系统，使用scala开发。
基于内存计算，效率高于hadoop.job中间输出和结果可以保存在内存中，从而不需要读写HDFS，节省了磁盘IO耗时，号称性能比hadoop块一百倍。
它拥有Hadoop MapReduce所具有的优点，但不同于MapReduce的是：Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark兼容Hadoop生态系统,可以运行在Yarn上，能读取HDFS，HBase, Cassandra以及任何Hadoop数据源
Spark可以用于以下场景：
√ Spark Shell/Spark Submit的批处理
√ Spark SQL的交互式查询
√ Spark Streaming的实时处理应用
√ MLlib/MLbase的机器学习
√ GraphX的图处理和SparkR数据挖掘

使用场景：

复杂的批量处理，偏重处理海量数据
基于历史数据的交互式查询，偏重于交互响应，时间在数十秒到数十分钟，使用spark-sql
基于实时数据流的数据处理，低延迟的实时处理

flink

Flink是开源的分布式，高性能，高可用，准确的流处理框架，用于在无界和有界数据流上进行有状态计算,支持实时流处理和批处理。

开源软件，实时处理工具，可以同时处理批处理和流处理任务
快速可靠，用作通用数据处理，速度快
使用方便，采用java\scala编程语言
flink定位时数据处理引擎，flink可以批流结合
flink最大的优势是连续查询。

集群资源管理

YARN

YARN （Yet Another Resource Negotiator的缩写）是开源Hadoop 分布式处理框架中的资源管理和作业调度技术。作为Hadoop 的核心组件之一，YARN 负责将系统资源分配给在Hadoop集群中运行的各种应用程序，并调度要在不同集群节点上执行的任务。
组成：

ResourceManager：拥有系统所有资源分配的决定权，负责集群中所有应用程序的资源分配，拥有集群资源主要、全局视图。因此为用户提供公平的，基于容量的，本地化资源调度。
NodeManager：主要负责与ResourceManager通信，负责启动和管理应用程序的container的生命周期，监控它们的资源使用情况（cpu和内存），跟踪节点的监控状态，管理日志等，并报告给RM。
ApplicationManager：主要负责接收job的提交请求，为应用分配第一个Container来运行ApplicationMaster，还有就是负责监控ApplicationMaster，在遇到失败时重启ApplicationMaster运行的Container。

数据可视化工具

hue：CDH自带的可视化工具，通过web界面查询hive、impala的可视化数据，任务执行比较慢，但是比较稳定，适用于大数据处理，性能较好，用户DPI日志离线分析、网络信令离线分析
zepplin：可视化工具
klbana：查询es数据

HUE

Hue是一个开源的Apache Hadoop UI系统，由Cloudera贡献给开源社区，它是基于Python Web框架Django实现的。通过使用Hue可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作Hive、Impala查询，运行MapReduce Job等等

数据安全运维

cloudera manager：CDH自带的工具，集群安装、部署、配置等

cloudera manager

cloudera manager覆盖了集群所有资源与服务的统一配置、管理、监控、诊断。
特点：

零宕机滚动安装、升级
配置组件高可用、手工、自动切换
配置日志、回滚
服务间动态资源调配
容灾备份、恢复
LDAP、kerberos集成
直接连接cloudera支持服务体系

扫描二维码推送至手机访问。

转载请注明出处https://www.0291.com.cn/post/57125.html

返回列表

上一篇：轻松识别文字，这款Python OCR库支持超过80种语言

下一篇：Spark从入门到放弃—Spark SQL

现在，非常期待与您的又一次邂逅

我们努力让每一部企业宣传片和抖音短视频成为商业大片

咨询热线立即免费咨询

推广

大数据基础知识

Hadoop

数据采集工具

sqoop

flume

数据存储工具

HDFS

Hbase

hive

spark-SQL

impala

Elasticsearch

kafka

数据处理工具

mapreduce

spark

flink

集群资源管理

YARN

数据可视化工具

HUE

数据安全运维

cloudera manager

相关文章

月耗200万的SEMer，教你正确分析竞争对手。

早安正能量语录

中小企业的网站应该如何优化。

淘宝卖护肤品需要什么资质,网店初学者适合卖什么（淘宝开店卖化妆品需要什么条件）

广点通投放端案例V2.0设计总结(交互篇)

按“剧本”走，能破购房“限购”？郑州房管部门提醒：不要存在侥幸心理

现在，非常期待与您的又一次邂逅

Copyright 西安泽虎短视频代运营 Rights Reserved.陕ICP备2023011092号

Powered By Z-BlogPHP. Theme by TOYEAN.