首页 > 资讯 > 数据库 >理解Spark SQL(一）—— CLI和ThriftServer

726

分享到

理解Spark SQL(一）—— CLI和ThriftServer

理解Spark SQL(一）——CLI和ThriftServer 2017-01-02 16:01:26 726人浏览猪猪侠

摘要

spark sql主要提供了两个工具来访问Hive中的数据，即CLI和ThriftServer。前提是需要Spark支持Hive，即编译Spark时需要带上hive和hive-thriftserver选项，同时需要确保在$SPARK_HOM

spark sql主要提供了两个工具来访问Hive中的数据，即CLI和ThriftServer。前提是需要Spark支持Hive，即编译Spark时需要带上hive和hive-thriftserver选项，同时需要确保在$SPARK_HOME/conf目录下有hive-site.xml配置文件（可以从hive中拷贝过来）。在该配置文件中主要是配置hive metastore的URI（Spark的CLI和ThriftServer都需要）以及ThriftServer相关配置项（如hive.server2.thrift.bind.host、hive.server2.thrift.port等）。注意如果该台机器上同时运行有Hive ThriftServer和Spark ThriftServer，则hive中的hive.server2.thrift.port配置的端口与spark中的hive.server2.thrift.port配置的端口要不一样，避免同时启动时发生端口冲突。

启动CLI和ThriftServer之前都需要先启动hive metastore。执行如下命令启动：

[root@BruceCentos ~]# nohup hive --service metastore &

成功启动后，会出现一个Runjar的进程，同时会监听端口9083（hive metastore的默认端口）。

先来看CLI，通过spark-sql脚本来使用CLI。执行如下命令：

[root@BruceCentOS4 spark]# $SPARK_HOME/bin/spark-sql --master yarn

上述命令执行后会启动一个yarn client模式的Spark程序，如下图所示：

同时它会连接到hive metastore，可以在随后出现的spark-sql>提示符下运行hive sql语句，比如：

其中每输入并执行一个SQL语句相当于执行了一个Spark的Job，如图所示：

也就是说执行spark-sql脚本会启动一个yarn clien模式的Spark Application，而后出现spark-sql>提示符，在提示符下的每个SQL语句都会在Spark中执行一个Job，但是对应的都是同一个Application。这个Application会一直运行，可以持续输入SQL语句执行Job，直到输入“quit;”，然后就会退出spark-sql，即Spark Application执行完毕。

另外一种更好地使用Spark SQL的方法是通过ThriftServer，首先需要启动Spark的ThriftServer，然后通过Spark下的beeline或者自行编写程序通过JDBC方式使用Spark SQL。

通过如下命令启动Spark ThriftServer：

[root@BruceCentOS4 spark]# $SPARK_HOME/sbin/start-thriftserver.sh --master yarn

执行上面的命令后，会生成一个SparkSubmit进程，实际上是启动一个yarn client模式的Spark Application，如下图所示：

而且它提供一个JDBC/ODBC接口，用户可以通过JDBC/ODBC接口连接ThriftServer来访问Spark SQL的数据。具体可以通过Spark提供的beeline或者在程序中使用JDBC连接ThriftServer。例如在启动Spark ThriftServer后，可以通过如下命令使用beeline来访问Spark SQL的数据。

[root@BruceCentOS3 spark]# $SPARK_HOME/bin/beeline -n root -u jdbc:hive2://BruceCentOS4.hadoop:10003

上述beeline连接到了BruceCentOS4上的10003端口，也就是Spark ThriftServer。所有连接到ThriftServer的客户端beeline或者JDBC程序共享同一个Spark Application，通过beeline或者JDBC程序执行SQL相当于向这个Application提交并执行一个Job。在提示符下输入“!exit”命令可以退出beeline。

最后，如果要停止ThriftServer（即停止Spark Application），需要执行如下命令：

[root@BruceCentOS4 spark]# $SPARK_HOME/sbin/stop-thriftserver.sh

综上所述，在Spark SQL的CLI和ThriftServer中，比较推荐使用后者，因为后者更加轻量，只需要启动一个ThriftServer（对应一个Spark Application）就可以给多个beeline客户端或者JDBC程序客户端使用SQL，而前者启动一个CLI就启动了一个Spark Application，它只能给一个用户使用。

您可能感兴趣的文档:

--结束END--

本文标题: 理解Spark SQL(一）—— CLI和ThriftServer

本文链接: https://lsjlt.com/news/2413.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

理解Spark SQL(一）—— CLI和ThriftServer

理解Spark SQL(一）—— CLI和ThriftServer

理解Spark SQL(二）—— SQLContext和HiveContext

理解Spark SQL(三）—— Spark SQL程序举例

理解Spark运行模式（一）(Yarn Client)

如何理解Spark Streaming的数据可靠性和一致性

怎么理解spark的自定义分区和排序及spark与jdbc

如何解析Apache Spark 统一内存管理模型

使用Spark时的一些常见问题和解决办法

详解Unique SQL原理和应用

LINQ To SQL和ORM怎么理解

一篇文章教你如何理解SQL

理解sql中的group by和having

如何理解sql注入和xss攻击

SQL Server权限管理和数据恢复详解

Spring(一):IOC如何推导和理解

解析Mybatis Porxy动态代理和sql解析替换问题

如何理解Oracle和MySQL中短小精悍的SQL

如何理解ABAP的OPEN SQL和Hybris Commerce的Flexible Search

Mybatis一对多和多对一处理的深入讲解

一文读懂Hadoop-正确认识和理解

关于SQL建表语句使用详解

HBase在大数据审计与合规性追踪中的应用

MySQL与HBase在大数据金融分析中的性能与可扩展性对比

HBase的Region Server之间的网络通信优化

HBase在大数据监控与告警系统中的实时数据处理能力

MySQL与HBase在大数据安全策略中的实现与对比

HBase的分布式事务处理在复杂业务场景中的应用

MySQL与HBase在混合存储架构中的整合策略

HBase如何支持高效的二级索引查询

MySQL与HBase在物联网数据收集与处理中的协作模式