Apache Hive ™ 是一种分布式容错数据仓库系统,可实现大规模分析,并有助于使用 SQL 读取、写入和管理分布式存储中的 PB 级数据。

官方地址:https://hive.apache.org/

Apache Hive 是一种分布式、容错的数据仓库系统,可实现大规模分析。Hive Metastore (HMS) 提供了一个元数据的中央存储库,可以轻松分析该元数据以做出明智的、数据驱动的决策,因此它是许多数据湖架构的关键组件。Hive 构建在 Apache Hadoop 之上,通过 hdfs 支持 S3、adls、gs 等存储。Hive 允许用户使用 SQL 读取、写入和管理 PB 级数据。

Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行。Hive由Facebook实现并开源。

  • 1、Hive作用或好处

    使用Hive处理数据的好处 - 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手) - 避免直接写MapReduce,减少开发人员的学习成本 - 支持自定义函数,功能扩展很方便 - 基于Hadoop,擅长存储分析海量数据集

  • 2、Hive与Hadoop的关系

    Apache Hive作为一款大数据时代的数据仓库软件,具备数据存储与分析能力,都是通过hadoop来实现的。 Hive利用HDFS存储数据,利用MapReduce查询分析数据。 Hive的用户专注于编写HQL,Hive转换成为MapReduce程序完成对数据的分析。

Hive 特征

  • Hive-Server 2 (HS2)

    HS2支持多客户端并发和身份验证。它旨在为 JDBC 和 ODBC 等开放 API 客户端提供更好的支持。

  • Hive 元存储服务器 (HMS)

    Hive Metastore (HMS) 是关系数据库中 Hive 表和分区元数据的中央存储库,并为客户端(包括 Hive、Impala 和 Spark)提供使用 Metastore 服务 API 访问此信息的能力。它已成为利用各种开源软件(例如 Apache Spark 和 Presto)的数据湖的构建块。事实上,整个工具生态系统(开源工具和其他工具)都是围绕 Hive Metastore 构建的,此图展示了其中一些工具。

  • Hive ACID

    Hive 为 ORC 表输出提供完整的 Acid 支持,并仅支持所有其他格式。

  • Hive 数据压缩

    开箱即用地支持基于查询和基于 MR 的数据压缩。

  • Hive 复制

    Hive 支持引导和增量复制以进行备份和恢复。

  • 安全性和可观察性

    Apache Hive 支持 kerberos 身份验证,并与 Apache Ranger 和 Apache Atlas 集成以实现安全性和可观察性。

  • Hive LLAP

    Apache Hive 通过 Hive 2.0 中引入的低延迟分析处理 (LLAP) 实现交互式和亚秒级 SQL,通过使用持久查询基础设施和优化的数据缓存使 Hive 更快

  • 查询计划器和基于成本的优化器

    Hive 使用 Apache Calcite 的基于成本的查询优化器 (CBO) 和查询执行框架来优化 SQL 查询。

作者:Jeebiz  创建时间:2023-12-08 09:23
最后编辑:Jeebiz  更新时间:2024-07-10 22:56