首页 > 资讯 > 后端开发 > Python >Python api构建tensorrt加速模型的步骤详解

458

分享到

Python api构建tensorrt加速模型的步骤详解

2024-04-02 19:04:59 458人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录一、创建TensorRT有以下几个步骤：二、python api和c++ api在实现网络加速有什么区别？三、构建TensorRT加速模型 3.1 加载tensorRT

一、创建TensorRT有以下几个步骤：

1.用TensorRT中network模块定义网络模型
2.调用TensorRT构建器从网络创建优化的运行时引擎
3.采用序列化和反序列化操作以便在运行时快速重建
4.将数据喂入engine中进行推理

二、Python api和C++ api在实现网络加速有什么区别？

个人看法
1.python比c++更容易读并且已经有很多包装很好的科学运算库（numpy，scikit等）,
2.c++是接近硬件的语言，运行速度比python快很多很多，因为python是解释性语言c++是编译型语言

三、构建TensorRT加速模型

3.1 加载tensorRT

1.import tensorrt as trt
2.为tensorrt实现日志报错接口方便报错，在下面的代码我们只允许警告和错误消息才打印，TensorRT中包含一个简单的日志记录器Python绑定。

TRT_LOGGER = trt.Logger(trt.Logger.WARNING)

3.2 创建网络

简单来说就是用tensorrt的语言来构建模型，如果自己构建的话，主要是灵活但是工作量so large，一般还是用tensorrt parser来构建
（1）Caffe框架的模型可以直接用tensorrt内部解释器构建
（2）除caffe，TF模型以外其他框架，先转成ONNX通用格式，再用ONNX parser来解析
（3）TF可以直接通过tensorrt内部的UFF包来构建，但是tensorrt uff包中并支持所有算子
（4）自己将wts放入自己构建的模型中，工作量so large，但是很灵活。

3.3 ONNX构建engine

因为博主用的ONNXparser来构建engine的，下面就介绍以下ONNX构建engine，步骤如下：
（1）导入tensorrt


import tensorrt as trt

（2）创建builder，network和相应模型的解释器，这里是onnxparser


EXPLICIT_BATCH = 1 << (int)
(trt.networkDefinitionCreationFlag.EXPLICIT_BATCH)
with builder = trt.Builder(TRT_LOGGER) as builder,
	builder.create_network(EXPLICIT_BATCH) as network, trt.OnnxParser(network,
 TRT_LOGGER) as parser:
with open(model_path, 'rb') as model:
parser.parse(model.read())

这个代码的主要意思是，构建报错日志，创建build，network和onnxparser，然后用parser读取onnx权重文件。

3.3.1 builder介绍

builder功能之一是搜索cuda内核目录，找到最快的cuda以求获得最快的实现，因此有必要使用相同的GPU进行构建（相同的操作，算子进行融合，减少IO操作），engine就是在此基础上运行的，builder还可以控制网络以什么精度运行（FP32,FP16,INT8），还有两个特别重要的属性是最大批处理大小和最大工作空间大小。


builder.max_batch_size = max_batch_size
builder.max_workspace_size = 1 << 20

3.3.2序列化模型

序列化和反序列化模型的主要是因为network和定义创建engine很耗时，因此可以通过序列化一次并在推理时反序列化一次来避免每次应用程序重新运行时重新构建引擎。
note：序列化引擎不能跨平台或TensorRT版本移植。引擎是特定于它们所构建的GPU模型(除了平台和TensorRT版本)
代码如下：


#序列化模型到模型流
serialized_engine = engine.serialize()
#反序列化模型流去执行推理，反序列化需要创建一个运行时对象
with trt.Runtime(TRT_LOGGER) as runtime:
	engine = runtime.deserialize_cuda_engine(serialized_engine)
#也可以将序列化模型write
with open(“sample.engine”, “wb”) as f:
	f.write(engine.serialize())
#然后再读出来进行反序列化
with open(“sample.engine”, “rb”) as f, trt.Runtime(TRT_LOGGER) as runtime:
	engine = runtime.deserialize_cuda_engine(f.read())

3.3.3执行推理过程

note：下面过程的前提是已经创建好了engine


# 为输入和输出分配一些主机和设备缓冲区:
#确定尺寸并创建页面锁定内存缓冲区
h_input = cuda.pagelocked_empty(trt.volume(engine.get_binding_shape(0)),dtype=np.float32)
h_output =cuda.pagelocked_empty(trt.volume(engine.get_binding_shape(1)),dtype=np.float32)
#为输入和输出分配设备内存
d_input = cuda.mem_alloc(h_input.nbytes)
d_output = cuda.mem_alloc(h_output.nbytes)
#创建一个流，在其中复制输入/输出并运行推断
stream = cuda.Stream()


# 创建一些空间来存储中间激活值，因为engine保存了network定义和训练时的参数，这些都是构建的上下文执行的。
with engine.create_execution_context() as context:
 	# 输入数据传入GPU
	cuda.memcpy_htod_async(d_input, h_input, stream)
 	# 执行推理.
 	context.execute_async(bindings=[int(d_input), int(d_output)],
 	stream_handle=stream.handle)
 	# 将推理后的预测结果从GPU上返回.
 	cuda.memcpy_dtoh_async(h_output, d_output, stream)
 	# 同步流
 	stream.synchronize()
 	# 返回主机输出 
	return h_output

note：一个engine可以有多个执行上下文，允许一组权值用于多个重叠推理任务。例如，可以使用一个引擎和一个上下文在并行CUDA流中处理图像。每个上下文将在与引擎相同的GPU上创建。

到此这篇关于Python api构建tensorrt加速模型的文章就介绍到这了,更多相关Python api tensorrt加速模型内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: Python api构建tensorrt加速模型的步骤详解

本文链接: https://lsjlt.com/news/134214.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python api构建tensorrt加速模型的步骤详解

目录

一、创建TensorRT有以下几个步骤：

二、Python api和C++ api在实现网络加速有什么区别？

三、构建TensorRT加速模型

3.1 加载tensorRT

3.2 创建网络

3.3 ONNX构建engine

Python api构建tensorrt加速模型的步骤详解

详解Vue-cli来构建Vue项目的步骤

使用Vite+Vue3+Vant全家桶快速构建项目步骤详解

使用 Rails API 构建一个 React 应用程序的详细步骤

python搭建虚拟环境的步骤详解

详解Python手写数字识别模型的构建与使用

阿里云服务器训练构建强大模型的关键步骤

为PHP模块添加SQL SERVER2012数据库的步骤详解

在VScode里面添加Python解释器的详细步骤

移植busybox构建最小根文件系统的步骤详解

python利用元类和描述器实现ORM模型的详细步骤

为什么需要脚手架？详解node构建脚手架的步骤

DockerCompose搭建简单的Python网络应用程序(步骤详解)

C++技术中的机器学习：使用C++构建机器学习模型的步骤是什么？

Python 机器学习初学者教程：一步一步构建你的第一个机器学习模型

Python入门开发教程windows下搭建开发环境vscode的步骤详解

Python入门开发教程 windows下搭建开发环境vscode的步骤详解

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义