这篇文章给大家介绍sparksql基础知识都有哪些,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。一.SparkSQL架构1.架构2.解释一个sql 过来 解析成unresolved,只拿出来字段名和
这篇文章给大家介绍sparksql基础知识都有哪些,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。
一个sql 过来 解析成unresolved,只拿出来字段名和表名但是不知道字段名和表名在哪个位置需要通过Schema 确定表的位置等信息,生成逻辑执行计划,Logical,知道数据从哪里来了通过一些列优化过滤生成物理执行计划Physical最后把物理执行计划放到spark集群上运行
Spark SQL就是写SQL,这是错误的观点Spark SQL不是SQL,超出SQL,因为SQL是其一部分Spark SQL 是处理结构化数据的,只是Spark中的一个模块Spark SQL 与 Hive on Spark 不是一个东西Spark SQL 是spark里面的Hive on Spark 的功能是比Spark SQL多的Hive on Spark 稳定性不是很好
关系数据库集群成本很高,还是有限的SQL : schema + file使用sql的前提就是有schema ,作用到文件上去hive是进程的hive2.0 默认引擎是TezHive on Spark 就是把hive执行引擎改成spark
mrsparkTez
spark sql 可以跨数据源进行join,例如hdfs与mysql里表内容joinSpark SQL运行可以不用hive,只要你连接到hive的metastore就可以
hiveserver2开启可以用JDBC或者ODBC直接连接
spark-sql 与 spark-shell ,thriftserverthriftserver对应hive里面的hiveserver2
./beeline -u jdbc:hive2://localhost:10000 -n root
spark-shell、spark-sql 都是是一个独立的 spark application,启动几个就要几个application,非常耗资源用thriftserver,无论启动多少个客户端(beeline)连接在一个thriftserver,是一个独立的spark application,后面不用在重新申请资源。前一个beeline缓存的,下一个beeline也可以用用thriftserver,可在ui看执行计划,优化有优势
这个要起来,要不spark-shell, spark-sql,连接不上,这个跟hive一样
spark-shell --master local[2] --jars /soft/hive/lib/Mysql-connector-java-8.0.12.jar 这样启动不起来你可以试试把mysql-connector-java-8.0.12.jar 放到spark的jars里
关于SparkSQL基础知识都有哪些就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
--结束END--
本文标题: SparkSQL基础知识都有哪些
本文链接: https://lsjlt.com/news/230146.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
0