返回顶部
首页 > 资讯 > 精选 >如何理解Kubeflow
  • 376
分享到

如何理解Kubeflow

2023-06-19 10:06:01 376人浏览 泡泡鱼
摘要

本篇文章为大家展示了如何理解Kubeflow,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。提起机器学习,尤其是深度学习,大家可能会对诸如Tensorflow,PyTorch,Caffee的工具耳熟能

本篇文章为大家展示了如何理解Kubeflow,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。

提起机器学习,尤其是深度学习,大家可能会对诸如TensorflowPyTorch,Caffee的工具耳熟能详。但其实在实际的机器学习的生命周期中,训练模型(上述工具主要解决的问题)只是整个机器学习生命周期的很小一部分。

如何理解Kubeflow

数据如何准备?模型训练好了如何部署?如何上云?如何上规模Scale?等等挑战随之而来。随着机器学习的广泛应用,许多工具响应而生,以解决模型部署的问题。例如:

  • oracle 的 graPHPipe

  • Databricks 的 mlflow

  • Google的 kubeflow

我们今天就来看一看Google推出的Kubeflow。Kubeflow,顾名思义,是Kubernetes + Tensorflow,是Google为了支持自家的Tensorflow的部署而开发出的开源平台,当然它同时也支持Pytorch和基于python的SKlearn等其它机器学习的引擎。与其它的产品相比较,因为是基于强大的kubernetes之上构建,Kubeflow的未来和生态系统更值得看好。

Kukeflow主要提供在生产系统中简单的大规模部署机器学习的模型的功能,利用Kubernetes,它可以做到:

  • 简单,可重复,可移植的部署

  • 利用微服务提供松耦合的部署和管理

  • 按需扩大规模

Kubeflow是基于k8s的机器学习工具集,它提供一系列的脚本和配置,来管理K8S的组件。Kubeflow基于K8s的微服务架构,其核心组件包括:

  • Jupyterhub  多租户Nootbook服务

  • Tensorflow/Pytorch/MPI/MXnet/Chainer  主要的机器学习引擎

  • Seldon 提供在K8s上对于机器学习模型的部署

  • Argo 基于K8s的工作流引擎

  • Ambassador  api Gateway

  • Istio 提供微服务的管理,Telemetry收集

  • Ksonnet  K8s部署工具

基于K8s,扩展其它能力非常方便,Kubeflow提供的其它扩展包括:

  • Pachyderm 基于容器和K8s的数据流水线 (git for data)

  • Weaveworks flux 基于git的配置管理

  • ... ...

如何理解Kubeflow

我们可以看出,基于K8s,Kubeflow利用已有的生态系统来构微服务,可以说充分体现了微服务的高度扩展性。

我们下面就来看看Kubeflow是如何整合了这些组件,来提供机器学习模型部署的功能的。

JupyterHub

Jupyter Notebook是深受数据科学家喜爱的开发工具,它提供出色的交互和实时反馈。JupyterHub提供一个使用Juypter Notebook的多用户使用环境,它包含以下组件:

  • 多用户Hub

  • 可配置的Http代理

  • 多个但用户Notebook server

如何理解Kubeflow

运行以下的命令通过port-forward访问jyputer hub

kubectl port-forward tf-hub-0 8000:8000 -n <ns>

第一次访问,可以创建一个notebook的实例。创建的实例可以选择不同的镜像,可以实现对GPU的支持。同时需要选择配置资源的参数。

创建好的jupyterlab (JupyterLab是新一代的Juypter Notebook)的界面如下:

如何理解Kubeflow

不过我还是比较习惯传统的notebook界面。Lab的优点是可以开Console,这个不错。(Lab也支持打开传统的notebook界面)

Kubeflow在notebook镜像中集成了Tensorboard,可以方便的对tensflow的程序进行可视化和调试。

在jyputerlab的Console中,输入下面的命令开启Tensorboard:

tensorboard --logdir <logdir>
$ tensorboard --logdir /tmp/logs2018-09-15 20:30:21.186275: I tensorflow/core/platfORM/cpu_feature_guard.cc:140] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMAW0915 20:30:21.204606 Reloader tf_logging.py:121] Found more than one graph event per run, or there was a metagraph containing a graph_def, as well as one or more graph events.  Overwriting the graph with the newest event.W0915 20:30:21.204929 Reloader tf_logging.py:121] Found more than one metagraph event per run. Overwriting the metagraph with the newest event.W0915 20:30:21.205569 Reloader tf_logging.py:121] Found more than one graph event per run, or there was a metagraph containing a graph_def, as well as one or more graph events.  Overwriting the graph with the newest event.TensorBoard 1.8.0 at http://jupyter-admin:6006 (Press CTRL+C to quit)

访问tensorboard也需要port-forward,这里user是创建notebook的用户名,kubeflow为为一个实例创建一个Pod。缺省的tensorboard的端口是6006。

kubectl port-forward jupyter-<user> 6006:6006 -n <ns>

如何理解Kubeflow

Tensorflow 训练

为了支持在Kubernete中进行分布式的Tensorflow的训练,Kubeflow开发了K8s的CDR,TFJob (tf-operater)。

如何理解Kubeflow

如上图所示,分布式的Tensorflow支持0到多个以下的进程:

  • Chief  负责协调训练任务

  • Ps Parameter servers,参数服务器,为模型提供分布式的数据存储

  • Worker 负责实际训练模型的任务. 在某些情况下 worker 0 可以充当Chief的责任.

  • Evaluator 负责在训练过程中进行性能评估

下面的yaml配置是Kubeflow提供的一个CNN Benchmarks的例子。

---apiVersion: kubeflow.org/v1alpha2kind: TFJobmetadata:  labels:    ksonnet.io/component: mycnnjob  name: mycnnjob  namespace: kubeflowspec:  tfReplicaSpecs:    Ps:      template:        spec:          containers:          - args:            - Python            - tf_cnn_benchmarks.py            - --batch_size=32            - --model=resnet50            - --variable_update=parameter_server            - --flush_stdout=true            - --num_gpus=1            - --local_parameter_device=cpu            - --device=cpu            - --data_format=NHWC            image: GCr.io/kubeflow/tf-benchmarks-cpu:v20171202-bdab599-dirty-284af3            name: tensorflow            workingDir: /opt/tf-benchmarks/scripts/tf_cnn_benchmarks          restartPolicy: OnFailure      tfReplicaType: PS    Worker:      replicas: 1      template:        spec:          containers:          - args:            - python            - tf_cnn_benchmarks.py            - --batch_size=32            - --model=resnet50            - --variable_update=parameter_server            - --flush_stdout=true            - --num_gpus=1            - --local_parameter_device=cpu            - --device=cpu            - --data_format=NHWC            image: gcr.io/kubeflow/tf-benchmarks-cpu:v20171202-bdab599-dirty-284af3            name: tensorflow            workingDir: /opt/tf-benchmarks/scripts/tf_cnn_benchmarks          restartPolicy: OnFailure

在Kubeflow中运行这个例子,会创建一个TFjob。可以使用Kubectl来管理,监控这个Job的运行。

# 监控当前状态kubectl get -o yaml tfjobs <jobname> -n <ns># 查看事件kubectl describe tfjobs <jobname> -n <ns># 查看运行日志kubectl logs mycnnjob-[ps|worker]-0 -n <ns>

Tensoflow 服务(Serving)

Serving就是指当模型训练好了以后,提供一个稳定的接口,供用户调用,来应用该模型。

基于Tensorflow的Serving功能,Kubeflow提供一个Tensorflow模型服务器(model server)的Ksonnet模块来提供模型服务的功能。

如何理解Kubeflow

模型部署好了之后,通过API Gateway暴露的endpoint来访问和使用模型。

http://<ambassadorEndpoint>/seldon/<deploymentName>/api/v0.1/predictions

如何理解Kubeflow

机器学习同样可以抽象为一个或者多个工作流。Kubeflow继承了Argo来作为其机器学习的工作流引擎。

可以通过Kubectl proxy来访问Kubeflow中的Argo UI。 http://localhost:8001/api/v1/namespaces/kubeflow/services/argo-ui/proxy/workflows

现阶段,并没有实际的Argo工作流来运行机器学习的例子。但是Kubeflow在使用Argo来做自己的CICD系统。

如何理解Kubeflow

Pychyderm是容器化的数据池,提供像git一样的数据版本系统管理,并提供一个数据流水线,来构建你的数据科学项目

Kubeflow利用Google自家的两大利器Kubernete和Tensorflow,强强联手,来提供一个数据科学的工具箱和部署平台。我们可以看到他有很多优点:

  • 优化 - 基于K8s,可以说,所有功能都很容易的在云上扩展。诸如多租户功能,动态扩展,对AWS/GCP的支持等等

  • 利用微服务架构,扩展性强,基于容器,加入心得组件非常容易

  • 出色的devops和CICD支持,使用Ksonnet/argo,部署和管理组件和CICD都变得非常轻松

  • 多核心支持,除了我们本文提到的深度学习引擎,Kubeflow很容易扩展新的引擎,例如Caffe2正在开发中。

  • GPU支持

同时我们也可以看到Kubeflow的一些问题:

  • 组件比较多,缺乏协调,更像是一推工具集合。希望能有一个整合流畅的工作流,能统一各个步骤。

  • 文档还需改善

当然,kubeflow的当前版本是0.2.5,我相信,未来Kubeflow会有很好的发展。

上述内容就是如何理解Kubeflow,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注编程网精选频道。

--结束END--

本文标题: 如何理解Kubeflow

本文链接: https://lsjlt.com/news/295317.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 如何理解Kubeflow
    本篇文章为大家展示了如何理解Kubeflow,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。提起机器学习,尤其是深度学习,大家可能会对诸如Tensorflow,Pytorch,Caffee的工具耳熟能...
    99+
    2023-06-19
  • 如何理解代理ip
    这篇文章将为大家详细讲解有关如何理解代理ip,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。何谓代理IP,实际上是一种网络代理,使用户可以通过代理人访问想要浏览的网站。总的来说,代理服务是保护...
    99+
    2023-06-25
  • 如何理解latch
    这期内容当中小编将会给大家带来有关如何理解latch,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1.串行化 概述 数据...
    99+
    2024-04-02
  • 如何理解innodb
    本篇文章为大家展示了如何理解innodb,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。 plugin innodbinnodb作为my...
    99+
    2024-04-02
  • 如何理解ajax
    这篇文章将为大家详细讲解有关如何理解ajax,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。什么是AjaxAjax是Asynchronous JavaScri...
    99+
    2024-04-02
  • 如何理解JSON
    这篇文章主要讲解了“如何理解JSON”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何理解JSON”吧!这几个字母是什么意思JavaScript Objec...
    99+
    2024-04-02
  • 如何理解SpringMVC
    目录一、SpringMVC简介二、SpringMVC核心组件2.1、DispatcherServlet2.2、HandlerMapping2.3、HandlerInterceptor...
    99+
    2024-04-02
  • 如何理解TypeScript
    今天就跟大家聊聊有关如何理解TypeScript,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。前言TypeScript是强类型语言,所以相比于Jav...
    99+
    2024-04-02
  • 如何理解Promise
    这篇文章主要介绍“如何理解Promise”,在日常操作中,相信很多人在如何理解Promise问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何理解Promise”的疑惑有所帮...
    99+
    2024-04-02
  • 如何理解SaaS
    这篇文章主要介绍“如何理解SaaS”,在日常操作中,相信很多人在如何理解SaaS问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何理解SaaS”的疑惑有所帮助!接下来,请跟着...
    99+
    2024-04-02
  • 如何理解postCSS
    本篇内容主要讲解“如何理解postCSS”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何理解postCSS”吧!最近很火的TailwindCSS有一个功能:可...
    99+
    2024-04-02
  • 如何理解Etsy
    这篇文章主要讲解了“如何理解Etsy”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何理解Etsy”吧!Etsy做了什么?于2005年成立的Etsy是一个专卖手工艺制品、古董物品和独特工业生...
    99+
    2023-06-10
  • 如何理解CLASSPATH
    这篇文章主要介绍“如何理解CLASSPATH”,在日常操作中,相信很多人在如何理解CLASSPATH问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何理解CLASSPATH”的疑惑有所帮助!接下来,请跟着小编...
    99+
    2023-06-17
  • 如何理解JActor
    如何理解JActor,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。JActor 是一个 Java 的 Actor 模式的实现,经过测试在 i5 CPU 上可支持每秒钟发送 85...
    99+
    2023-06-17
  • FXCop如何理解
    今天就跟大家聊聊有关FXCop如何理解,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。FXCop最开始是作为一款微软的内部工具被设计出来的,它的目的是保证所有.NET API一定的一致...
    99+
    2023-06-17
  • 如何理解SLAM
    本篇文章为大家展示了如何理解SLAM,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。“ 有部分小伙伴好奇小白是做什么的,这里统一回复大家。小白是在校的学生,目前研究的方向是视觉SLAM。今天...
    99+
    2023-06-19
  • 如何理解Proftpd
    这篇文章给大家介绍如何理解Proftpd,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。ProFTPD是继Wu-FTP之后最为流行的FTP服务器软件。用了一年多给大家简单介绍下。当我的同事每次传送文件到 Solaris ...
    99+
    2023-06-16
  • 如何理解Looper.prepare()
    Looper.prepare()方法是用来初始化当前线程的消息循环机制。在Android开发中,每个线程都需要经过Looper.pr...
    99+
    2023-09-15
    理解
  • 如何理解Openfiler
    本篇文章为大家展示了如何理解Openfiler,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。Openfiler 简介Openfiler可以将一个工业标准的X86_64的架构系统转换为一个完全成熟的N...
    99+
    2023-06-04
  • 如何理解SHELL
    本篇文章为大家展示了如何理解SHELL,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。阅读以下部分前,强烈建议读者打开一个shell实验,这些都不是shell教科书里的大路货哦:!$!$是一个特殊的环...
    99+
    2023-06-05
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作