Apache Hive ™ 是一种分布式容错数据仓库系统,可实现大规模分析,并有助于使用 SQL 读取、写入和管理分布式存储中的 PB 级数据。
Apache Hive 是一种分布式、容错的数据仓库系统,可实现大规模分析。Hive Metastore (HMS) 提供了一个元数据的中央存储库,可以轻松分析该元数据以做出明智的、数据驱动的决策,因此它是许多数据湖架构的关键组件。Hive 构建在 Apache Hadoop 之上,通过 hdfs 支持 S3、adls、gs 等存储。Hive 允许用户使用 SQL 读取、写入和管理 PB 级数据。
Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行。Hive由Facebook实现并开源。
1、Hive作用或好处
使用Hive处理数据的好处 - 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手) - 避免直接写MapReduce,减少开发人员的学习成本 - 支持自定义函数,功能扩展很方便 - 基于Hadoop,擅长存储分析海量数据集
2、Hive与Hadoop的关系
Apache Hive作为一款大数据时代的数据仓库软件,具备数据存储与分析能力,都是通过hadoop来实现的。 Hive利用HDFS存储数据,利用MapReduce查询分析数据。 Hive的用户专注于编写HQL,Hive转换成为MapReduce程序完成对数据的分析。
Hive 特征
Hive-Server 2 (HS2)
HS2支持多客户端并发和身份验证。它旨在为 JDBC 和 ODBC 等开放 API 客户端提供更好的支持。
Hive 元存储服务器 (HMS)
Hive Metastore (HMS) 是关系数据库中 Hive 表和分区元数据的中央存储库,并为客户端(包括 Hive、Impala 和 Spark)提供使用 Metastore 服务 API 访问此信息的能力。它已成为利用各种开源软件(例如 Apache Spark 和 Presto)的数据湖的构建块。事实上,整个工具生态系统(开源工具和其他工具)都是围绕 Hive Metastore 构建的,此图展示了其中一些工具。
Hive ACID
Hive 为 ORC 表输出提供完整的 Acid 支持,并仅支持所有其他格式。
Hive 数据压缩
开箱即用地支持基于查询和基于 MR 的数据压缩。
Hive 复制
Hive 支持引导和增量复制以进行备份和恢复。
安全性和可观察性
Apache Hive 支持 kerberos 身份验证,并与 Apache Ranger 和 Apache Atlas 集成以实现安全性和可观察性。
Hive LLAP
Apache Hive 通过 Hive 2.0 中引入的低延迟分析处理 (LLAP) 实现交互式和亚秒级 SQL,通过使用持久查询基础设施和优化的数据缓存使 Hive 更快
查询计划器和基于成本的优化器
Hive 使用 Apache Calcite 的基于成本的查询优化器 (CBO) 和查询执行框架来优化 SQL 查询。
最后编辑:Jeebiz 更新时间:2024-07-10 22:56