首页 > 资讯 > 精选 >怎么使用PyTorch实现随机搜索策略

564

分享到

怎么使用PyTorch实现随机搜索策略

2023-07-02 19:07:56 564人浏览安东尼

摘要

本篇内容主要讲解“怎么使用PyTorch实现随机搜索策略”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎么使用PyTorch实现随机搜索策略”吧!1. 随机搜索策略一种简单但有效的方法是将智能体

本篇内容主要讲解“怎么使用PyTorch实现随机搜索策略”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎么使用PyTorch实现随机搜索策略”吧!

1. 随机搜索策略

一种简单但有效的方法是将智能体对环境的观测值映射到代表两个动作的二维向量，然后我们选择值较高的动作执行。映射函数使用权重矩阵描述，权重矩阵的形状为 4 x 2，因为在CarPole环境中状态是一个 4 维向量，而动作有 2 个可能值。在每个回合中，首先随机生成权重矩阵，并用于计算此回合中每个步骤的动作，并在回合结束时计算总奖励。重复此过程，最后将能够得到最高总奖励的权重矩阵作为最终的动作选择策略。由于在每个回合中我们均会随机选择权重矩阵，因此称这种方法为随机搜索，期望通过在多个回合的测试中找到最佳权重。

2. 使用 PyTorch 实现随机搜索算法

在本节中，我们使用 PyTorch 实现随机搜索算法。

首先，导入 Gym 和 PyTorch 以及其他所需库，并创建一个 CartPole 环境实例：

import gymimport torchfrom matplotlib import pyplot as pltenv = gym.make('CartPole-v0')

获取并打印状态空间和行动空间的尺寸：

n_state = env.observation_space.shape[0]print(n_state)# 4n_action = env.action_space.nprint(n_action)# 2

当我们在之后定义权重矩阵时，将会使用这些尺寸，即权重矩阵尺寸为 (n_state, n_action) = (4 x 2)。

接下来，定义函数用于使用给定输入权重模拟 CartPole 环境的一个游戏回合并返回此回合中的总奖励：

def run_episode(env, weight):    state = env.reset()    total_reward = 0    is_done = False    while not is_done:        state = torch.from_numpy(state).float()        action = torch.argmax(torch.matmul(state, weight))        state, reward, is_done, _ = env.step(action.item())        total_reward += reward    return total_reward

在以上代码中，我们首先将状态数组 state 转换为浮点型张量，然后计算状态数组和权重矩阵张量的乘积 torch.matmul(state, weight)，以将状态数组进行映射映射为动作数组，使用 torch.argmax() 操作选择值较高的动作，例如值为 [0.122, 0.333]，则应选择动作 1。然后使用 item() 方法获取操作结果值，因为此处的 step() 方法需要接受单元素张量，获取新的状态和奖励。重复以上过程，直到回合结束。

指定回合数，并初始化变量用于记录最佳总奖励和相应权重矩阵，并初始化数组用于记录每个回合的总奖励：

n_episode = 1000best_total_reward = 0best_weight = Nonetotal_rewards = []

接下来，我们运行 n_episode 个回合，在每个回合中，执行以下操作：

构建随机权重矩阵
智能体根据权重矩阵将状态映射到相应的动作
回合终止并返回总奖励
更新最佳总奖励和最佳权重，并记录总奖励

for e in range(n_episode):    weight = torch.rand(n_state, n_action)    total_reward = run_episode(env, weight)    print('Episode {}: {}'.fORMat(e+1, total_reward))    if total_reward > best_total_reward:        best_weight = weight        best_total_reward = total_reward    total_rewards.append(total_reward)

运行 1000 次随机搜索获得最佳策略，最佳策略由 best_weight 参数化。在测试最佳策略之前，我们可以计算通过随机搜索获得的平均总奖励：

print('Average total reward over {} episode: {}'.format(n_episode, sum(total_rewards) / n_episode))# Average total reward over 1000 episode: 46.722

可以看到，对比使用随机动作获得的结果 (22.19)，使用随机搜索获取的总奖励是其两倍以上。

接下来，我们使用随机搜索得到的最佳权重矩阵，在 1000 个新的回合中测试其表现如何：

n_episode_eval = 1000total_rewards_eval = []for episode in range(n_episode_eval):    total_reward = run_episode(env, best_weight)    print('Episode {}: {}'.format(episode+1, total_reward))    total_rewards_eval.append(total_reward)print('Average total reward over {} episode: {}'.format(n_episode_eval, sum(total_rewards_eval) / n_episode_eval))# Average total reward over 1000 episode: 114.786

随机搜索算法的效果能够获取较好结果的主要原因是 CartPole 环境较为简单。它的观察状态数组仅由四个变量组成。而在 Atari Space Invaders 游戏中的观察值超过 100000 (即 210 \times 160 \times 3210×160×3)。同样 CartPole 中动作状态的维数也仅仅为 2。通常，使用简单算法可以很好地解决简单问题。

我们也可以注意到，随机搜索策略的性能优于随机选择动作。这是因为随机搜索策略将智能体对环境的当前状态考虑在内。有了关于环境的相关信息，随机搜索策略中的动作就可以比完全随机的选择动作更加智能。

我们还可以在训练和测试阶段绘制每个回合的总奖励：

plt.plot(total_rewards, label='search')plt.plot(total_rewards_eval, label='eval')plt.xlabel('episode')plt.ylabel('total_reward')plt.legend()plt.show()

怎么使用PyTorch实现随机搜索策略

可以看到，每个回合的总奖励是非常随机的，并且并没有因为回合数的增加显示出改善的趋势。在训练过程中，可以看到在实现前期有些回合的总奖励已经可以达到 200，由于智能体的策略并不会因为回合数的增加而改善，因此我们可以在回合总奖励达到 200 时结束训练：

n_episode = 1000best_total_reward = 0best_weight = Nonetotal_rewards = []for episode in range(n_episode):    weight = torch.rand(n_state, n_action)    total_reward = run_episode(env, weight)    print('Episode {}: {}'.format(episode+1, total_reward))    if total_reward > best_total_reward:        best_weight = weight        best_total_reward = total_reward    total_rewards.append(total_reward)    if best_total_reward == 200:        break

由于每回合的权重都是随机生成的，因此获取最大奖励的策略出现的回合也并不确定。要计算所需训练回合的期望，可以重复以上训练过程 1000 次，并取训练次数的平均值作为期望：

n_training = 1000n_episode_training = []for _ in range(n_training):    for episode in range(n_episode):        weight = torch.rand(n_state, n_action)        total_reward = run_episode(env, weight)        if total_reward == 200:            n_episode_training.append(episode+1)            breakprint('Expectation of training episodes needed: ', sum(n_episode_training) / n_training)# Expectation of training episodes needed:  14.26

可以看到，平均而言，我们预计大约需要 14 个回合才能找到最佳策略。

到此，相信大家对“怎么使用PyTorch实现随机搜索策略”有了更深的了解，不妨来实际操作一番吧！这里是编程网网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

--结束END--

本文标题: 怎么使用PyTorch实现随机搜索策略

本文链接: https://lsjlt.com/news/343769.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

怎么使用PyTorch实现随机搜索策略

1. 随机搜索策略

2. 使用 PyTorch 实现随机搜索算法

使用PyTorch实现随机搜索策略

怎么使用PyTorch实现随机搜索策略

PyTorch策略梯度算法怎么使用

怎么使用Python实现搜索功能

java怎么实现搜索框搜索功能

golang怎么实现搜索

怎么实现php策略模式

Dubbo轮询策略怎么实现

Java策略模式怎么实现

怎么用Redis实现搜索接口

JS数组搜索之折半搜索怎么实现

使用c++怎么实现简单随机数

使用JavaScript怎么实现一个二叉搜索树

如何使用Spring实现策略模式

怎样用Javascript实现策略模式

JavaScript中怎么实现策略模式

Android中怎么实现策略模式

VuePress使用Algolia实现全文搜索

怎么用html5实现语音搜索框

web用php怎么实现搜索功能

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南