spark-sql-04-on_hive

spark-sql-04-on_hive 数据库入门数据库基础教程数据库 mysql 2016-05-07 19:05:24 129人浏览猪猪侠

摘要

设置metastore 机器： ke01、ke02、ke03、ke04 ke03 为元数据库 ke01、ke02、ke04 连接到元数据库、 Hive-metastore搭建 ke03: hiv

spark-sql-04-on_hive
[数据库教程]

技术图片

设置metastore

机器： ke01、ke02、ke03、ke04

ke03 为元数据库
ke01、ke02、ke04 连接到元数据库 、

Hive-metastore搭建

ke03:




        hive.metastore.warehouse.dir
        /user/hive/warehouse


        javax.jdo.option.ConnectionURL
        jdbc:Mysql://ke01:3306/hive?createDatabaseIfNotExist=true


        javax.jdo.option.ConnectionDriverName
        com.mysql.jdbc.Driver


        javax.jdo.option.ConnectionUserName
        root


        javax.jdo.option.ConnectionPassWord
        aa123456


    hive.metastore.schema.verification
    false
 

    datanucleus.schema.autoCreateAll
    true
 




ke01.02.04:

 
        hive.metastore.uris
        thrift://ke03:9083

启动

ke03:

hive --help // 技巧
hive --service --help //技巧
启动
hive --service metastore


ke04: hive = hive --service cli 连接hive   
// CLI指的是 command-line interface






测试：
create table test01( name string );


原理： ke04 通过command-line interface 将sql写进去，动用元数据，将建表语句通知ke03:metastore 最终存入mysql
mysql -> hive.TBL 有刚创建的表：test01

启动可能遇到的异常

MetaException(message:Version infORMation not found in metastore. )



配置：

    hive.metastore.schema.verification
    false
 

    datanucleus.schema.autoCreateAll
    true

一般公司可能禁止使用命令行方式直接操作hive,使用hiveservice2, 只要能和ke03这台机器tcp通信，hiveservice2就可以连接

ke02: hive --service hiveserver2
beeline 
!connect jdbc:hive2://ke02:10000
root  密码随机

测试： show databases

总结：

连接hive方式
1. hive --service cli 需要本地配置hive.metastore.uris
2. beeline  !connect jdbc:hive2://ke02:10000  只要能和hiveserver2通讯即可

spark连接 hive-metastore 配置：

.config("hive.metastore.uris", "thrift://ke03:9083")

   val session = SparkSession.builder()
      .master("local")
      .appName("spark on hive")
      .config("hive.metastore.uris", "thrift://ke03:9083")
      .enableHiveSupport() // 开启hive支持
      .getOrCreate()

    val sc = session.sparkContext
    sc.setLogLevel("ERROR")
    session.catalog.listTables().show()
    


    val dataFrame = session.sql("show tables ")
    dataFrame.show()

    

   // session.sql("create table test02(id int)")
    // 数据存入hdfs，配置文件需要加入HDFS地址，resources目录下加入core-site.xml hdfs-site.xml
    session.sql("insert into test02 values (3),(4),(5)")


      import session.implicits._
    val df = List(
      "小柯",
      "张三",
      "lisi").toDF("name")
    df.createTempView("test03")


    

    session.catalog.listTables().show()
    session.sql("show tables ").show()

    

    
    // test03写入到了hdfs中，临时表变成了持久表
    df.write.saveAsTable("test03")

注意

spark数据写入到HDFS，需要配置写入HDFS地址
core-site.xml --> hdfs://mycluster --> hdfs-site.xml --> dfs.ha.namenodes.mycluster --> nn1,nn2 --> dfs.namenode.rpc-address.mycluster.nn1 / nn2 --> ke01:8020 / ke02:802 --> dfs.namenode.http-address.mycluster.nn1 / nn2 --> ke01:50070 /ke02:50070

表test03写入到了HDFS：

技术图片

spark-sql-04-on_hive

原文地址：https://www.cnblogs.com/bigdata-familyMeals/p/14521231.html

您可能感兴趣的文档:

--结束END--

本文标题: spark-sql-04-on_hive

本文链接: https://lsjlt.com/news/8135.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

spark-sql-04-on_hive

设置metastore 机器： ke01、ke02、ke03、ke04 ke03 为元数据库 ke01、ke02、ke04 连接到元数据库、 hive-metastore搭建 ke03: hiv...

99+

2016-05-07

spark-sql-04-on_hive 数据库入门数据库基础教程数据库 mysql
理解Spark SQL(三）—— Spark SQL程序举例

上一篇说到，在Spark 2.x当中，实际上SQLContext和HiveContext是过时的，相反是采用SparkSession对象的sql函数来操作SQL语句的。使用这个函数执行SQL语句前需要先调用DataFrame的createO...

99+

2020-09-04

理解Spark SQL(三）—— Spark SQL程序举例
Spark SQL(6) OptimizedPlan

Spark SQL(6) OptimizedPlan 在这一步spark sql主要应用一些规则，优化生成的Resolved Plan，这一步涉及到的有Optimizer。之前介绍在sparksession实例化的是会实例化session...

99+

2018-05-05

Spark SQL(6) OptimizedPlan 数据库入门数据库基础教程数据库 mysql
「Spark」Spark SQL Thrift Server运行方式

Spark SQL可以使用JDBC/ODBC或命令行接口充当分布式查询引擎。这种模式，用户或者应用程序可以直接与Spark SQL交互，以运行SQL查询，无需编写任何代码。Spark SQL提供两种方式来运行SQL：通过运行Thr...

99+

2021-02-24

「Spark」Spark SQL Thrift Server运行方式
大数据Hadoop之——Spark SQL+Spark Streaming

目录一、Spark SQL概述二、SparkSQL版本1）SparkSQL的演变之路2）shark与SparkSQL对比3）SparkSession三、RDD、DataFrames和DataSet1）三者关联关系1）RDD1、核心概念2、...

99+

2019-06-08

大数据Hadoop之——Spark SQL+Spark Streaming
Spark SQL怎么用

这篇文章主要介绍“Spark SQL怎么用”，在日常操作中，相信很多人在Spark SQL怎么用问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Spark SQL怎么用”的疑惑有所帮助！接下来，请跟着小编一起来...

99+

2023-06-03
springboot集成spark并使用spark-sql的方法

这篇文章主要介绍“springboot集成spark并使用spark-sql的方法”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“springboot集成spark并使用spark-sql的方法”文章...

99+

2023-06-29
Spark SQL外部数据源的机制以及spark-sql的使用

这篇文章主要介绍“Spark SQL外部数据源的机制以及spark-sql的使用”，在日常操作中，相信很多人在Spark SQL外部数据源的机制以及spark-sql的使用问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对...

99+

2023-06-02
04 SQL简介和数据定义语言

1.SQL简介 SQL 是 Structured Query Language（结构化查询语言）的首字母缩写词 SQL 是数据库语言，Oracle使用该语言存储和检索信息通过 SQL可以实现与 Ora...

99+

2024-04-02
Spark Streaming+Spark SQL的数据倾斜示例分析

这篇文章将为大家详细讲解有关Spark Streaming+Spark SQL的数据倾斜示例分析，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。1.现象三台机器都有产生executor，每台...

99+

2023-06-03
一条Sql的Spark之旅

背景 SQL作为一门标准的、通用的、简单的DSL，在大数据分析中有着越来越重要的地位;Spark在批处理引擎领域当前也是处于绝对的地位，而Spark2.0中的SparkSQL也支持ANSI-SQL 2003标准。因此Spark...

99+

2021-03-10

一条Sql的Spark之旅
Spark-Sql的示例分析

这篇文章主要介绍Spark-Sql的示例分析，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！SparkSQL运行架构Spark SQL对SQL语句的处理，首先会将SQL语句进行解析（Parse），然后形成一个Tree，...

99+

2023-06-21
springboot集成spark并使用spark-sql的示例详解

首先添加相关依赖： <xml version="1.0" encoding="UTF-8"> <project xmlns="http://maven.apache...

99+

2024-04-02
理解Spark SQL(一）—— CLI和ThriftServer

Spark SQL主要提供了两个工具来访问hive中的数据，即CLI和ThriftServer。前提是需要Spark支持Hive，即编译Spark时需要带上hive和hive-thriftserver选项，同时需要确保在$SPARK_HOM...

99+

2017-01-02

理解Spark SQL(一）—— CLI和ThriftServer
理解Spark SQL(二）—— SQLContext和HiveContext

使用Spark SQL，除了使用之前介绍的方法，实际上还可以使用SQLContext或者HiveContext通过编程的方式实现。前者支持SQL语法解析器（SQL-92语法），后者支持SQL语法解析器和HiveSQL语法解析器，默认为Hiv...

99+

2017-07-25

理解Spark SQL(二）—— SQLContext和HiveContext
spark sql/hive小文件问题

针对hive on mapreduce 1：我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并：参数详细内容可参考官网：https://cwiki.apache.org/confluence/display/Hive/Con...

99+

2020-09-25

spark sql/hive小文件问题数据库入门数据库基础教程数据库 mysql
Spark SQL中怎么创建DataFrames

本篇内容主要讲解“Spark SQL中怎么创建DataFrames”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Spark SQL中怎么创建DataFrames”吧!一、Spark SQL简介S...

99+

2023-06-01
Spark SQL的用途有哪些

Spark SQL是一个用于在Spark平台上进行结构化数据处理的模块，它具有以下用途：查询和分析结构化数据：Spark SQ...

99+

2024-04-09

Spark
【赵强老师】什么是Spark SQL？

一、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL？我们已经学习了Hive，它是...

99+

2016-01-30

【赵强老师】什么是Spark SQL？
什么是扩展Spark SQL解析

这篇文章主要讲解了“什么是扩展Spark SQL解析”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“什么是扩展Spark SQL解析”吧！理论基础...

99+

2024-04-02