首页 > 资讯 > 后端开发 > Python >python算法学习双曲嵌入论文代码实现数据集介绍

668

分享到

python算法学习双曲嵌入论文代码实现数据集介绍

2024-04-02 19:04:59 668人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录1. 目标python 代码依赖库2. 数据集数据展示学习的文章： Poincaré Embeddings for Learning Hierarchical Represent

1. 目标

我们有一些层级结构的网络类型数据，如何能够根据每个词的上下结构路径，将每个词语能够用一个向量来替换，换句话说，就是将词映射为实数域中的向量（词嵌入，Word embedding）。最简单的想法是使用one-hot词向量，其构造起来很容易，但通常并不是一个好选择。主要的原因是，one-hot词向量无法准确表达不同词之间的相似度，同时也不能刻画词语之间的层次结构。而在另外的方法中，采用最多的是在欧式空间里进行嵌入（word2vec），这种方式的embedding可以有效表示出词语间的相似性，但却依旧难以刻画出词语之间的层次结构。

这时候为了既能够衡量词与词之间的相似性，又能衡量这种词与词之间的层次结构，引入了双曲几何的思想，在双曲空间中进行嵌入。双曲嵌入表征层级结构的能力就要比欧氏空间嵌入的能力高得多，同时需要的维数却更少。

Python 代码依赖库

为了能够顺利跑通后面的代码，这里先展示出代码需要依赖的库：


import nltk
# nltk.download('wordnet') # 第一次运行需运行此命令，安装wordnet数据集
from nltk.corpus import wordnet as wn
from math import *
import random
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.lines as mlines
import networkx as nx

2. 数据集

训练数据集采用wordnet中的数据进行实现，相关的数据说明在上周的文档中已经进行了介绍，这里不再进行赘述。

由于整个的wordnet数据集比较大，为了测试代码，我们只使用哺乳动物（mammal）及其相关的分支进行学习。首先我们看看数据集长什么样。由于我们只需要用到层次结构信息，因此我们只需将数据集里面每个哺乳动物相关名词的子节点与父节点的关系进行读取与构建。


network = {} # 构建层级网络
last_level = 8 # 最深的层设置为8层
levelOfnode = {} # 数据的层级信息，0为哺乳动物（根节点），1为哺乳动物下一结构
# 递归构建network
def get_hyponyms(synset, level):
    if (level == last_level):
        levelOfNode[str(synset)] = level
        return
    if not str(synset) in network:
        network[str(synset)] = [str(s) for s in synset.hyponyms()]
        levelOfNode[str(synset)] = level
    for hyponym in synset.hyponyms():
        get_hyponyms(hyponym, level + 1)
# 构建以哺乳动物为根节点的层次结构数据集
mammal = wn.synset('mammal.n.01')
get_hyponyms(mammal, 0)
levelOfNode[str(mammal)] = 0
# 将终端叶子节点补到network字典中
for a in levelOfNode:
    if not a in network:
        network[a] = []

数据展示

运行完成上述代码后，可以得到对应的节点层级，以及总体的网络分支。

节点层级（数值表示层级数，最深的层设置为6，0为根节点）

网络分支情况

为了更清晰地将树的结构进行刻画，用一个代码进一步将相关的层次结构直接进行展示。


def nORM(x):
    return np.dot(x, x)

def traverse(graph, start, node):
    node_name = node.name().split(".")[0]
    graph.depth[node_name] = node.shortest_path_distance(start)
    for child in node.hyponyms():
        child_name = child.name().split(".")[0]
        graph.add_edge(node_name, child_name) # 添加边
        traverse(graph, start, child) # 递归构建

def hyponym_graph(start):
    G = nx.Graph() # 定义一个图
    G.depth = {}
    traverse(G, start, start)
    return G

def graph_draw(graph):
    plt.figure(figsize=(10, 10)) # 展示整体的网络
    # plt.figure(figsize=(3, 3)) # 展示大象网络
    nx.draw(graph,
         node_size = [10 * graph.degree(n) for n in graph],
         node_color = [graph.depth[n] for n in graph],
         alpha = 0.8,
         font_size = 4,
         width = 0.5,
         with_labels = True)
    
def get_keys(d, value):
        return [k for k,v in d.items() if v == value]
    root_name = get_keys(graph.depth, 0)[0]
    plt.savefig("~/hyperE/fig/" + root_name + ".png", dpi = 300)
    
graph = hyponym_graph(mammal)
graph_draw(graph)

绘制出来的哺乳动物（mammal）全体的结构如下（此时没有空间信息，只有层级信息，为了展示才显示为下图所示的样式）：

其中，颜色越深，节点越大，表示节点的层级越接近根节点（哺乳动物）。

由于数据非常多，展示的不是很清楚，这里我们单纯的提出出来大象（elephant）的结构，进一步看看数据集的情况。


elephant = wn.synset('elephant.n.01')
graph = hyponym_graph(elephant)
graph_draw(graph)

后面我们将利用这份数据集，进行方法的介绍，以及双曲嵌入模型的训练。

请见：python算法学习双曲嵌入论文方法与代码解析说明

以上就是python算法学习双曲嵌入论文代码实现数据集介绍的详细内容，更多关于python算法数据集双曲嵌入论文代码的资料请关注编程网其它相关文章！

您可能感兴趣的文档:

--结束END--

本文标题: python算法学习双曲嵌入论文代码实现数据集介绍

本文链接: https://lsjlt.com/news/156496.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

python算法学习双曲嵌入论文代码实现数据集介绍

目录

1. 目标

Python 代码依赖库

2. 数据集

数据展示

python算法学习双曲嵌入论文代码实现数据集介绍

python算法学习双曲嵌入论文方法与代码解析说明

【深度学习时间序列预测案例】零基础入门经典深度学习时间序列预测项目实战（附代码+数据集+原理介绍）

【NLP文本分类算法集锦】零基础入门经典文本分类项目实战（附代码+数据集）

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义