首页 > 资讯 > 精选 >如何理解Kubeflow

376

分享到

如何理解Kubeflow

2023-06-19 10:06:01 376人浏览泡泡鱼

摘要

本篇文章为大家展示了如何理解Kubeflow，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。提起机器学习，尤其是深度学习，大家可能会对诸如Tensorflow，PyTorch，Caffee的工具耳熟能

本篇文章为大家展示了如何理解Kubeflow，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

提起机器学习，尤其是深度学习，大家可能会对诸如Tensorflow，PyTorch，Caffee的工具耳熟能详。但其实在实际的机器学习的生命周期中，训练模型（上述工具主要解决的问题）只是整个机器学习生命周期的很小一部分。

如何理解Kubeflow

数据如何准备？模型训练好了如何部署？如何上云？如何上规模Scale？等等挑战随之而来。随着机器学习的广泛应用，许多工具响应而生，以解决模型部署的问题。例如：

oracle 的 graPHPipe
Databricks 的 mlflow
Google的 kubeflow

我们今天就来看一看Google推出的Kubeflow。Kubeflow，顾名思义，是Kubernetes + Tensorflow，是Google为了支持自家的Tensorflow的部署而开发出的开源平台，当然它同时也支持Pytorch和基于python的SKlearn等其它机器学习的引擎。与其它的产品相比较，因为是基于强大的kubernetes之上构建，Kubeflow的未来和生态系统更值得看好。

Kukeflow主要提供在生产系统中简单的大规模部署机器学习的模型的功能，利用Kubernetes，它可以做到：

简单，可重复，可移植的部署
利用微服务提供松耦合的部署和管理
按需扩大规模

Kubeflow是基于k8s的机器学习工具集，它提供一系列的脚本和配置，来管理K8S的组件。Kubeflow基于K8s的微服务架构，其核心组件包括：

Jupyterhub 多租户Nootbook服务
Tensorflow/Pytorch/MPI/MXnet/Chainer 主要的机器学习引擎
Seldon 提供在K8s上对于机器学习模型的部署
Argo 基于K8s的工作流引擎
Ambassador api Gateway
Istio 提供微服务的管理，Telemetry收集
Ksonnet K8s部署工具

基于K8s，扩展其它能力非常方便，Kubeflow提供的其它扩展包括：

Pachyderm 基于容器和K8s的数据流水线（git for data）
Weaveworks flux 基于git的配置管理
... ...

如何理解Kubeflow

我们可以看出，基于K8s，Kubeflow利用已有的生态系统来构微服务，可以说充分体现了微服务的高度扩展性。

我们下面就来看看Kubeflow是如何整合了这些组件，来提供机器学习模型部署的功能的。

JupyterHub

Jupyter Notebook是深受数据科学家喜爱的开发工具，它提供出色的交互和实时反馈。JupyterHub提供一个使用Juypter Notebook的多用户使用环境，它包含以下组件：

多用户Hub
可配置的Http代理
多个但用户Notebook server

如何理解Kubeflow

运行以下的命令通过port-forward访问jyputer hub

kubectl port-forward tf-hub-0 8000:8000 -n <ns>

第一次访问，可以创建一个notebook的实例。创建的实例可以选择不同的镜像，可以实现对GPU的支持。同时需要选择配置资源的参数。

创建好的jupyterlab （JupyterLab是新一代的Juypter Notebook）的界面如下：

如何理解Kubeflow

不过我还是比较习惯传统的notebook界面。Lab的优点是可以开Console，这个不错。（Lab也支持打开传统的notebook界面）

Kubeflow在notebook镜像中集成了Tensorboard，可以方便的对tensflow的程序进行可视化和调试。

在jyputerlab的Console中，输入下面的命令开启Tensorboard：

tensorboard --logdir <logdir>

$ tensorboard --logdir /tmp/logs2018-09-15 20:30:21.186275: I tensorflow/core/platfORM/cpu_feature_guard.cc:140] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMAW0915 20:30:21.204606 Reloader tf_logging.py:121] Found more than one graph event per run, or there was a metagraph containing a graph_def, as well as one or more graph events.  Overwriting the graph with the newest event.W0915 20:30:21.204929 Reloader tf_logging.py:121] Found more than one metagraph event per run. Overwriting the metagraph with the newest event.W0915 20:30:21.205569 Reloader tf_logging.py:121] Found more than one graph event per run, or there was a metagraph containing a graph_def, as well as one or more graph events.  Overwriting the graph with the newest event.TensorBoard 1.8.0 at http://jupyter-admin:6006 (Press CTRL+C to quit)

访问tensorboard也需要port-forward，这里user是创建notebook的用户名，kubeflow为为一个实例创建一个Pod。缺省的tensorboard的端口是6006。

kubectl port-forward jupyter-<user> 6006:6006 -n <ns>

如何理解Kubeflow

Tensorflow 训练

为了支持在Kubernete中进行分布式的Tensorflow的训练，Kubeflow开发了K8s的CDR，TFJob （tf-operater）。

如何理解Kubeflow

如上图所示，分布式的Tensorflow支持0到多个以下的进程：

Chief 负责协调训练任务
Ps Parameter servers，参数服务器，为模型提供分布式的数据存储
Worker 负责实际训练模型的任务. 在某些情况下 worker 0 可以充当Chief的责任.
Evaluator 负责在训练过程中进行性能评估

下面的yaml配置是Kubeflow提供的一个CNN Benchmarks的例子。

---apiVersion: kubeflow.org/v1alpha2kind: TFJobmetadata:  labels:    ksonnet.io/component: mycnnjob  name: mycnnjob  namespace: kubeflowspec:  tfReplicaSpecs:    Ps:      template:        spec:          containers:          - args:            - Python            - tf_cnn_benchmarks.py            - --batch_size=32            - --model=resnet50            - --variable_update=parameter_server            - --flush_stdout=true            - --num_gpus=1            - --local_parameter_device=cpu            - --device=cpu            - --data_format=NHWC            image: GCr.io/kubeflow/tf-benchmarks-cpu:v20171202-bdab599-dirty-284af3            name: tensorflow            workingDir: /opt/tf-benchmarks/scripts/tf_cnn_benchmarks          restartPolicy: OnFailure      tfReplicaType: PS    Worker:      replicas: 1      template:        spec:          containers:          - args:            - python            - tf_cnn_benchmarks.py            - --batch_size=32            - --model=resnet50            - --variable_update=parameter_server            - --flush_stdout=true            - --num_gpus=1            - --local_parameter_device=cpu            - --device=cpu            - --data_format=NHWC            image: gcr.io/kubeflow/tf-benchmarks-cpu:v20171202-bdab599-dirty-284af3            name: tensorflow            workingDir: /opt/tf-benchmarks/scripts/tf_cnn_benchmarks          restartPolicy: OnFailure

在Kubeflow中运行这个例子，会创建一个TFjob。可以使用Kubectl来管理，监控这个Job的运行。

# 监控当前状态kubectl get -o yaml tfjobs <jobname> -n <ns># 查看事件kubectl describe tfjobs <jobname> -n <ns># 查看运行日志kubectl logs mycnnjob-[ps|worker]-0 -n <ns>

Tensoflow 服务（Serving）

Serving就是指当模型训练好了以后，提供一个稳定的接口，供用户调用，来应用该模型。

基于Tensorflow的Serving功能，Kubeflow提供一个Tensorflow模型服务器（model server）的Ksonnet模块来提供模型服务的功能。

如何理解Kubeflow

模型部署好了之后，通过API Gateway暴露的endpoint来访问和使用模型。

http://<ambassadorEndpoint>/seldon/<deploymentName>/api/v0.1/predictions

如何理解Kubeflow

机器学习同样可以抽象为一个或者多个工作流。Kubeflow继承了Argo来作为其机器学习的工作流引擎。

可以通过Kubectl proxy来访问Kubeflow中的Argo UI。 http://localhost:8001/api/v1/namespaces/kubeflow/services/argo-ui/proxy/workflows

现阶段，并没有实际的Argo工作流来运行机器学习的例子。但是Kubeflow在使用Argo来做自己的CICD系统。

如何理解Kubeflow

Pychyderm是容器化的数据池，提供像git一样的数据版本系统管理，并提供一个数据流水线，来构建你的数据科学项目。

Kubeflow利用Google自家的两大利器Kubernete和Tensorflow，强强联手，来提供一个数据科学的工具箱和部署平台。我们可以看到他有很多优点：

云优化 - 基于K8s，可以说，所有功能都很容易的在云上扩展。诸如多租户功能，动态扩展，对AWS/GCP的支持等等
利用微服务架构，扩展性强，基于容器，加入心得组件非常容易
出色的devops和CICD支持，使用Ksonnet/argo，部署和管理组件和CICD都变得非常轻松
多核心支持，除了我们本文提到的深度学习引擎，Kubeflow很容易扩展新的引擎，例如Caffe2正在开发中。
GPU支持

同时我们也可以看到Kubeflow的一些问题：

组件比较多，缺乏协调，更像是一推工具集合。希望能有一个整合流畅的工作流，能统一各个步骤。
文档还需改善

当然，kubeflow的当前版本是0.2.5，我相信，未来Kubeflow会有很好的发展。

上述内容就是如何理解Kubeflow，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注编程网精选频道。

--结束END--

本文标题: 如何理解Kubeflow

本文链接: https://lsjlt.com/news/295317.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

如何理解Kubeflow

JupyterHub

Tensorflow 训练

Tensoflow 服务（Serving）

如何理解Kubeflow

如何理解代理ip

如何理解latch

如何理解innodb

如何理解ajax

如何理解JSON

如何理解SpringMVC

如何理解TypeScript

如何理解Promise

如何理解SaaS

如何理解postCSS

如何理解Etsy

如何理解CLASSPATH

如何理解JActor

FXCop如何理解

如何理解SLAM

如何理解Proftpd

如何理解Looper.prepare()

如何理解Openfiler

如何理解SHELL

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南