返回顶部
首页 > 资讯 > 精选 >Hive如何自定义函数实现将自定义函数注册到hive源码中并重新编译hive
  • 212
分享到

Hive如何自定义函数实现将自定义函数注册到hive源码中并重新编译hive

2023-06-03 00:06:59 212人浏览 泡泡鱼
摘要

这篇文章主要介绍Hive如何自定义函数实现将自定义函数注册到hive源码中并重新编译hive,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!hive版本:    hive-1.1.0-cdh6.7.

这篇文章主要介绍Hive如何自定义函数实现将自定义函数注册到hive源码中并重新编译hive,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

hive版本:
    hive-1.1.0-cdh6.7.0
1 编写UDF函数
    1.1 用户idea+Maven创建项目,pom.xml文件的配置如下:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="Http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
 xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
 <modelVersion>4.0.0</modelVersion>

 <groupId>com.ruozedata.bigdata</groupId>
 <artifactId>hive</artifactId>
 <version>1.0-SNAPSHOT</version>

 <name>hive</name>
 <!-- FIXME change it to the project's WEBsite -->
 <url>http://www.example.com</url>

 <properties>
   <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
   <maven.compiler.source>1.7</maven.compiler.source>
   <maven.compiler.target>1.7</maven.compiler.target>
   <hive.version>1.1.0-cdh6.7.0</hive.version>
   <hadoop.version>2.6.0-cdh6.7.0</hadoop.version>
 </properties>

 <!--Note: CDH版本一定需要添加如下依赖-->
 <repositories>
   <repository>
     <id>cloudera</id>
     <url>https://repository.cloudera.com/artifactory/cloudera-repos</url>
   </repository>
 </repositories>

 <dependencies>
   <!-- hdfs -->
   <dependency>
     <groupId>org.apache.hadoop</groupId>
     <artifactId>hadoop-common</artifactId>
     <version>${hadoop.version}</version>
   </dependency>

   <dependency>
     <!-- Hive -->
     <groupId>org.apache.hive</groupId>
     <artifactId>hive-exec</artifactId>
     <version>${hive.version}</version>
   </dependency>

   <dependency>
     <groupId>junit</groupId>
     <artifactId>junit</artifactId>
     <version>4.11</version>
     <scope>test</scope>
   </dependency>
 </dependencies>

 <build>
   <pluginManagement><!-- lock down plugins versions to avoid using Maven defaults (may be moved to parent pom) -->
     <plugins>
<plugin>
 <artifactId>maven-clean-plugin</artifactId>
 <version>3.0.0</version>
</plugin>
<!-- see http://maven.apache.org/ref/current/maven-core/default-bindings.html#Plugin_bindings_for_jar_packaging -->
<plugin>
 <artifactId>maven-resources-plugin</artifactId>
 <version>3.0.2</version>
</plugin>
<plugin>
 <artifactId>maven-compiler-plugin</artifactId>
 <version>3.7.0</version>
</plugin>
<plugin>
 <artifactId>maven-surefire-plugin</artifactId>
 <version>2.20.1</version>
</plugin>
<plugin>
 <artifactId>maven-jar-plugin</artifactId>
 <version>3.0.2</version>
</plugin>
<plugin>
 <artifactId>maven-install-plugin</artifactId>
 <version>2.5.2</version>
</plugin>
<plugin>
 <artifactId>maven-deploy-plugin</artifactId>
 <version>2.8.2</version>
</plugin>
     </plugins>
   </pluginManagement>
 </build>
</project>


    1.2 下载相关包:右键maven项目,maven->Reimport,就可自动下载jar包了,网络不好的话有点慢,

    1.3 创建类,右键包名:New->java Class 新建HelloUDF.java类
    package com.ruozedata.bigdata;
    import org.apache.hadoop.hive.ql.exec.Description;
    import org.apache.hadoop.hive.ql.exec.UDF;

    @Description(
    name="sayhelloudf",
    value="_FUNC_(input_str) - returns Hello : input_str  or _FUNC_(input_str,input_str2) - returns Hello : input_str:input_str2 ",
    extended = "Example:\n"+
                    " > SELECT _FUNC_('xx') FROM dual LIMIT 1;\n" +
                    "   Hello : xx "
                    )
    public class HelloUDF extends UDF {

        public String evaluate(String input){
                return "Hello:" + input;
       }

       public String evaluate(String input, String input2){
                return "Hello:" + input + " : " + input2;
       }
    }

2 下载hive-1.1.0-cdh6.7.0-src.tar.gz源码文件
     http://archive.cloudera.com/cdh6/cdh/5/hive-1.1.0-cdh6.7.0-src.tar.gz
    [hadoop@hadoop002 software]$ pwd
    /home/hadoop/software
    [hadoop@hadoop002 software]$ ll
    total 499272
    drwxrwxr-x. 17 hadoop hadoop      4096 Mar 24  2016 hadoop-2.6.0-cdh6.7.0
    -rw-rw-r--.  1 hadoop hadoop  42610549 Jul  5 15:05 hadoop-2.6.0-cdh6.7.0-src.tar.gz
    -rw-rw-r--.  1 hadoop hadoop 311585484 Feb 20 07:16 hadoop-2.6.0-cdh6.7.0.tar.gz
    -rw-rw-r--.  1 hadoop hadoop  14652104 Feb 21 05:28 hive-1.1.0-cdh6.7.0-src.tar.gz
    -rw-rw-r--.  1 hadoop hadoop 116082695 Feb 21 05:28 hive-1.1.0-cdh6.7.0.tar.gz
    -rw-rw-r--.  1 hadoop hadoop  29966286 Feb 22 02:28 sqoop-1.4.6-cdh6.7.0.tar.gz

    解压到当前目录:
    [hadoop@hadoop002 software]$ tar -zxvf hive-1.1.0-cdh6.7.0-src.tar.gz
    [hadoop@hadoop002 software]$ ll
    total 503368
    drwxrwxr-x. 17 hadoop hadoop      4096 Mar 24  2016 hadoop-2.6.0-cdh6.7.0
    -rw-rw-r--.  1 hadoop hadoop  42610549 Jul  5 15:05 hadoop-2.6.0-cdh6.7.0-src.tar.gz
    -rw-rw-r--.  1 hadoop hadoop 311585484 Feb 20 07:16 hadoop-2.6.0-cdh6.7.0.tar.gz
    drwxrwxr-x. 32 hadoop hadoop      4096 Jul  5 15:15 hive-1.1.0-cdh6.7.0
    -rw-rw-r--.  1 hadoop hadoop  14652104 Feb 21 05:28 hive-1.1.0-cdh6.7.0-src.tar.gz
    -rw-rw-r--.  1 hadoop hadoop 116082695 Feb 21 05:28 hive-1.1.0-cdh6.7.0.tar.gz
    -rw-rw-r--.  1 hadoop hadoop  29966286 Feb 22 02:28 sqoop-1.4.6-cdh6.7.0.tar.gz


3 将HelloUDF.java类添加到源码
    3.1 将HelloUDF.java类上传到/home/hadoop/software/hive-1.1.0-cdh6.7.0/ql/src/java/org/apache/hadoop/hive/ql/udf 目录。
    3.2 修改HelloUDF.java类的包:将 package com.ruozedata.bigdata; 修改为package org.apache.hadoop.hive.ql.udf;
    3.3 修改FunctionReGIStry.java类文件,对HelloUDF.java类进行注册:
        3.3.1 引入HelloUDF.java类文件的路径:
                    import org.apache.hadoop.hive.ql.udf.HelloUDF;
 
        3.3.2 在 static 块中添加:system.registerUDF("helloudf", HelloUDF.class, false);
                如下:
                        static {
                                   system.registerGenericUDF("concat", GenericUDFConcat.class);
                                   system.registerUDF("helloudf", HelloUDF.class, false);
                                   .
                                   .
                                   .
                               }


4 编译 hive-1.1.0-cdh6.7.0
    4.1 进入hive-1.1.0-cdh6.7.0目录进行源码编译:
    [hadoop@hadoop002 software]$ cd hive-1.1.0-cdh6.7.0
    [hadoop@hadoop002 hive-1.1.0-cdh6.7.0]$ mvn clean package -DskipTests -Phadoop-2 -Pdist

    出现如下日志,表示编译成功
    [INFO] --- build-helper-maven-plugin:1.8:attach-artifact (attach-jdbc-driver) @ hive-packaging ---
    [INFO] ------------------------------------------------------------------------
    [INFO] Reactor Summary:
    [INFO] 
    [INFO] Hive ............................................... SUCCESS [  9.558 s]
    [INFO] Hive Shims Common .................................. SUCCESS [ 14.763 s]
    [INFO] Hive Shims 0.23 .................................... SUCCESS [  7.488 s]
    [INFO] Hive Shims Scheduler ............................... SUCCESS [  4.449 s]
    [INFO] Hive Shims ......................................... SUCCESS [  2.784 s]
    [INFO] Hive Common ........................................ SUCCESS [ 14.109 s]
    [INFO] Hive Serde ......................................... SUCCESS [ 12.877 s]
    [INFO] Hive Metastore ..................................... SUCCESS [ 39.906 s]
    [INFO] Hive Ant Utilities ................................. SUCCESS [  3.377 s]
    [INFO] spark Remote Client ................................ SUCCESS [ 13.578 s]
    [INFO] Hive Query Language ................................ SUCCESS [02:22 min]
    [INFO] Hive Service ....................................... SUCCESS [01:14 min]
    [INFO] Hive Accumulo Handler .............................. SUCCESS [ 36.593 s]
    [INFO] Hive JDBC .......................................... SUCCESS [01:31 min]
    [INFO] Hive Beeline ....................................... SUCCESS [  8.103 s]
    [INFO] Hive CLI ........................................... SUCCESS [  8.419 s]
    [INFO] Hive Contrib ....................................... SUCCESS [  7.041 s]
    [INFO] Hive HBase Handler ................................. SUCCESS [01:29 min]
    [INFO] Hive HCatalog ...................................... SUCCESS [ 31.376 s]
    [INFO] Hive HCatalog Core ................................. SUCCESS [ 13.366 s]
    [INFO] Hive HCatalog Pig Adapter .......................... SUCCESS [ 10.937 s]
    [INFO] Hive HCatalog Server Extensions .................... SUCCESS [ 32.887 s]
    [INFO] Hive HCatalog Webhcat Java Client .................. SUCCESS [  6.679 s]
    [INFO] Hive HCatalog Webhcat .............................. SUCCESS [ 41.266 s]
    [INFO] Hive HCatalog Streaming ............................ SUCCESS [  6.445 s]
    [INFO] Hive HWI ........................................... SUCCESS [  5.169 s]
    [INFO] Hive ODBC .......................................... SUCCESS [  3.305 s]
    [INFO] Hive Shims Aggregator .............................. SUCCESS [  1.139 s]
    [INFO] Hive TestUtils ..................................... SUCCESS [  1.869 s]
    [INFO] Hive Packaging ..................................... SUCCESS [01:19 min]
    [INFO] ------------------------------------------------------------------------
    [INFO] BUILD SUCCESS
    [INFO] ------------------------------------------------------------------------
    [INFO] Total time: 13:37 min
    [INFO] Finished at: 2018-07-05T16:02:01+08:00
    [INFO] Final Memory: 158M/494M
    [INFO] ------------------------------------------------------------------------

    4.2  编译成功后会生成一个tar包:/home/hadoop/software/hive-1.1.0-cdh6.7.0/packaging/target/apache-hive-1.1.0-cdh6.7.0-bin.tar.gz  
       
5  部署hive-1.1.0-cdh6.7.0
    5.1 直接将编译好的apache-hive-1.1.0-cdh6.7.0-bin.tar.gz进行安装,见我前面写的一篇博客:hive-1.1.0-cdh6.7.0 安装 http://blog.itpub.net/29609890/viewspace-2155488/
    5.2 替换hive-exec-1.1.0-cdh6.7.0.jar包。 在编译好的文件中找到hive-exec-1.1.0-cdh6.7.0.jar包,去替换现在使用的hadoop-2.6.0-cdh6.7.0的hive-exec-1.1.0-cdh6.7.0.jar包
       编译好的hive-exec-1.1.0-cdh6.7.0.jar包路径:/home/hadoop/software/hive-1.1.0-cdh6.7.0/packaging/target/apache-hive-1.1.0-cdh6.7.0-bin/apache-hive-1.1.0-cdh6.7.0-bin/lib/
       现在使用的hadoop-2.6.0-cdh6.7.0的hive-exec-1.1.0-cdh6.7.0.jar包路径:/home/hadoop/app/hive-1.1.0-cdh6.7.0/lib/hive-exec-1.1.0-cdh6.7.0.jar
        切换到现在使用的hive目录:
        [hadoop@hadoop002 ~]$ cd ~/app/hive-1.1.0-cdh6.7.0/
        [hadoop@hadoop002 hive-1.1.0-cdh6.7.0]$ pwd
        /home/hadoop/app/hive-1.1.0-cdh6.7.0
        [hadoop@hadoop002 hive-1.1.0-cdh6.7.0]$ 
        备份现在使用的jar包:
        /home/hadoop/app/hive-1.1.0-cdh6.7.0/lib/
         [hadoop@hadoop002 hive-1.1.0-cdh6.7.0]# mv hive-exec-1.1.0-cdh6.7.0.jar hive-exec-1.1.0-cdh6.7.0.jar.bak
        拷贝到原hive 部署位置:
        [hadoop@hadoop002 hive-1.1.0-cdh6.7.0]# cp /home/hadoop/software/hive-1.1.0-cdh6.7.0/packaging/target/apache-hive-1.1.0-cdh6.7.0-bin/apache-hive-1.1.0-cdh6.7.0-bin/lib/hive-exec-1.1.0-cdh6.7.0.jar  ./
        查看hive-exec-1.1.0-cdh6.7.0.jar包
        [hadoop@hadoop002 lib]$ ll hive-exec-1.1.0-cdh6.7.0.*
        -rw-rw-r--. 1 hadoop hadoop 19274963 Jul  5 17:44 hive-exec-1.1.0-cdh6.7.0.jar
        -rw-r--r--. 1 hadoop hadoop 19272159 Mar 24  2016 hive-exec-1.1.0-cdh6.7.0.jar.bak


6 重启hive进行验证:
     hive> desc function sayhelloudf;
    OK
    sayhelloudf(input_str) - returns Hello : input_str  or sayhelloudf(input_str,input_str2) - returns Hello : input_str:input_str2 
    Time taken: 0.031 seconds, Fetched: 1 row(s)
    hive> select sayhelloudf('zhangsan') from ruozedata.dual;
    OK
    Hello:zhangsan
    Time taken: 2.531 seconds, Fetched: 1 row(s)
    hive> select sayhelloudf('zhangsan','lisi') from ruozedata.dual;
    OK
    Hello:zhangsan : lisi
    Time taken: 0.397 seconds, Fetched: 1 row(s)
    hive> 

以上是“Hive如何自定义函数实现将自定义函数注册到hive源码中并重新编译hive”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注编程网精选频道!

--结束END--

本文标题: Hive如何自定义函数实现将自定义函数注册到hive源码中并重新编译hive

本文链接: https://lsjlt.com/news/231695.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Hive如何自定义函数实现将自定义函数注册到hive源码中并重新编译hive
    这篇文章主要介绍Hive如何自定义函数实现将自定义函数注册到hive源码中并重新编译hive,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!hive版本:    hive-1.1.0-cdh6.7....
    99+
    2023-06-03
  • Hive中如何编写和使用自定义函数
    在Hive中,可以通过创建UDF(User Defined Function)来编写和使用自定义函数。UDF可以是一元函数、二元函数...
    99+
    2024-03-12
    Hive
  • Hive中怎么添加自定义函数
    这篇文章主要讲解了“Hive中怎么添加自定义函数”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Hive中怎么添加自定义函数”吧!环境介绍:CentOS7+hive-1.1.0-cdh6.7....
    99+
    2023-06-03
  • Hive中如何配置与编写自定义UDF函数
    小编给大家分享一下Hive中如何配置与编写自定义UDF函数,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!环境介绍:CentOS7+hive-1.1.0-cdh6....
    99+
    2023-06-03
  • Hive如何自定义函数实现创建临时函数和永久函数
    小编给大家分享一下Hive如何自定义函数实现创建临时函数和永久函数,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1 先创建函数类文件   &n...
    99+
    2023-06-03
  • 如何为 PHP 注册自定义函数?
    php 允许通过以下内置方法为自定义函数注册:register_shutdown_function:在脚本结束时调用指定的函数。create_function:创建并立即调用的匿名函数。...
    99+
    2024-04-16
    php 自定义函数 mysql
  • 如何将自定义函数集成到PHP代码中?
    在 php 中,您可以通过三个步骤集成自定义函数:创建函数加载函数调用函数这可通过以下方式应用于实际案例:创建一个计算矩形面积的自定义函数在代码中加载该函数调用函数多次以计算不同矩形的面...
    99+
    2024-04-18
    php 自定义函数 代码可读性
  • 如何使用Hive中自定义UDAF函数实现统计区域产品用户访问排名
    这篇文章主要介绍如何使用Hive中自定义UDAF函数实现统计区域产品用户访问排名,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!UDAF实现方法: 1,用户的UDAF必须继承了org.apache.hadoo...
    99+
    2023-06-03
  • 如何在golang中自定义实现函数?
    在 go 中实现自定义函数,需要使用 func 关键字后跟函数名、参数列表和返回类型(可选)。通过调用函数名和提供适当参数即可调用自定义函数。自定义函数可用于各种任务,例如处理数据、格式...
    99+
    2024-04-28
    函数 golang iphone 格式化输出 标准库
  • 将自定义golang函数实现集成到现有系统中
    利用 golang 函数增强现有系统可显著提升其功能和定制性。具体步骤如下:创建 golang 函数,编写自定义函数代码并构建成模块。编写集成代码,在现有系统中加载和调用自定义函数。实践...
    99+
    2024-04-27
    golang 关键词 提取
  • PHP 编程指南:如何自定义实现 intval 函数
    在PHP编程中,我们经常会使用到intval函数来将一个变量转换为整数值。虽然PHP提供了这个内置函数来实现这一功能,但有时候我们也可以根据自己的需求来自定义实现intval函数。本文...
    99+
    2024-03-11
    php 自定义 intval
  • PaddlePaddle中如何实现自定义的损失函数
    在PaddlePaddle中实现自定义的损失函数,可以通过继承paddle.nn.Layer类并重载__call__方法来实现。以下...
    99+
    2024-04-02
  • 如何将自定义 PHP 函数部署到生产环境?
    将自定义 php 函数部署到生产环境:创建 composer 包,包括函数代码。注册函数以自动加载。安装包。加载包到应用程序。在应用程序中调用函数。 如何将自定义 PHP 函数部署到生...
    99+
    2024-04-22
    php 部署 composer
  • 如何将自定义 PHP 函数部署到生产环境?
    将自定义 php 函数部署到生产环境:创建 composer 包,包括函数代码。注册函数以自动加载。安装包。加载包到应用程序。在应用程序中调用函数。 如何将自定义 PHP 函数部署到生...
    99+
    2024-04-22
    php 部署 composer
  • 使用自定义golang函数实现进行代码重构
    通过使用自定义函数,代码重构可以在 go 中实现。这些函数允许我们定义特定功能并多次重复使用它们。自定义函数提高了可读性、减少了重复,并提高了可维护性和模块性。 使用自定义 Go 函数...
    99+
    2024-04-27
    golang
  • 如何用Shell实现数学运算自定义函数
    本篇内容介绍了“如何用Shell实现数学运算自定义函数”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!最近脚本中总是需要计算,每次都用awk会...
    99+
    2023-06-09
  • 如何在MySQL中使用Python编写自定义函数
    在MySQL中使用Python编写自定义函数可以通过以下步骤实现:1. 首先,需要安装MySQL的Python驱动程序。可以使用以下...
    99+
    2023-10-10
    MySQL
  • 如何在MySQL中使用JavaScript编写自定义函数
    如何在MySQL中使用JavaScript编写自定义函数MySQL是一个流行的关系型数据库管理系统,而JavaScript是一种广泛用于网页开发的脚本语言。尽管MySQL自带了许多内建函数,但有时我们可能需要编写自定义函数来满足特定的需求。...
    99+
    2023-10-22
    MySQL JavaScript 自定义函数
  • 如何在MySQL中使用C#编写自定义函数
    在MySQL中使用C#编写自定义函数需要以下步骤:1. 创建一个C#类库项目,并添加对MySQL.Data.dll的引用。2. 在C...
    99+
    2023-10-20
    MySQL
  • 自定义函数如何实现单词排序并运用于PostgreSQL
    小编给大家分享一下自定义函数如何实现单词排序并运用于PostgreSQL,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!Python实现逻辑按照分隔符将字符串分割为...
    99+
    2023-06-14
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作