首页 > 资讯 > 后端开发 > Python >Tensorflow2.4从头训练Word Embedding实现文本分类

516

分享到

Tensorflow2.4从头训练Word Embedding实现文本分类

Tensorflow Word Embedding Tensorflow 文本分类 2023-01-06 18:01:03 516人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录前言具体介绍1. 三种文本向量化方法2. 获取数据3. 处理数据4. 搭建、训练模型5. 导出训练好的词嵌入向量前言本文主要使用 cpu 版本的 Tensorflow 2.4

前言

本文主要使用 cpu 版本的 Tensorflow 2.4 版本完成文本的 Word embedding 训练，并且以此为基础完成影评文本分类任务。

具体介绍

1. 三种文本向量化方法

通常在深度学习模型中我们的输入都是以向量形式存在的，所以我们处理数据过程的重要一项任务就是将文本中的 token （一个 token 可以是英文单词、一个汉字、一个中文词语等，需要自己规定）转换成对应的向量，本文会给出三种常见文本向量化的策略。

（1）One-Hot Encodings 。其实很好理解，假如我们的数据是“我是人”，因为有 3 个不同的汉字，我会给每个汉字一个对应的索引，然后我会创建一个长度为 3 的向量，假如我给每个汉字赋予的索引为“我->0”“是->1”“人->2”，那么每个字对应的 One-Hot Encodings 为 [1,0,0]、[0,1,0]、[0,0,1] 。那么“我是人”的这个句子的向量表示就可以将这三个向量拼接起来即可。这种方法的优点明显，方便理解和实现，但是缺点也很明显，效率非常低。One-Hot Encodings 所产生的的向量都是稀疏的。假如词汇表中有 1000 个单词，要对每个单词进行向量化编码，其中几乎 99% 的位置都为零。

（2）encode each word with a unique num 。我们可以使用唯一的数字对每个单词进行编码。还是上面的例子，我们给每个字分配一个对应的整数，假如分配结果为 “我->1”“是->2”“人->3”，我就能将句子“我是人”这句话就可以编码为一个稠密向量，如 [1,2,3]。此时的向量是一个稠密向量（所有位置都有有意义的整数填充）。但是这种方法有个缺点，编码的数字是可以人为任意设置，它不能捕获汉字之间的任何语义关系，也无法从数字上看出对应的近义词之间的关系。

（3）Word Embeddings 。词嵌入是一种将单词编码为有效稠密向量的方法，其中相似的单词具有相似相近的向量编码。词嵌入是浮点类型的稠密向量，向量的长度需要人为指定。我们不必像上面两种方法手动去设置编码中的向量值，而是将他们都作为可训练的参数，通过给模型喂大量的数据，不断的训练来捕获单词之间的细粒度语义关系，常见的词向量维度可以设置从 8 维到 1024 维范围中的任意整数。理论上维度越高词嵌入的语义越丰富但是训练成本越高。如我们上面的例子，我们设置词嵌入维度为 4 ，最后通过训练得到的词嵌入可能是 “我->[-3.2, 1.5, -4,6, 3.4]”“是-> [0.2, 0.6, -0.6, 1.5]”“人->[3.4, 5.3, -7.2, 1.5]”。

2. 获取数据

（1）本次我们要用到的是数据是 Large Movie Review Dataset ，我们需要使用 tensorflow 的内置函数从网络上下载到本地磁盘，为了简化数据，我们将训练数据目录中的 unsup 子目录都删除，最后取出 20000 个训练样本作为训练集，取出 5000 个训练样本作为验证集。

import io
import os
import re
import shutil
import string
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense, Embedding, GlobalAveragePooling1D
from tensorflow.keras.layers import TextVectorization
batch_size = 512
seed = 1
url = "https://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz"
dataset = tf.keras.utils.get_file("aclImdb_v1.tar.gz", url,  untar=True, cache_dir='.', cache_subdir='')
dataset_dir = os.path.join(os.path.dirname(dataset), 'aclImdb')
train_dir = os.path.join(dataset_dir, 'train')
remove_dir = os.path.join(train_dir, 'unsup')
shutil.rmtree(remove_dir)
train_datas = tf.keras.utils.text_dataset_from_directory( 'aclImdb/train', batch_size=batch_size, validation_split=0.2, subset='training', seed=seed)
val_datas = tf.keras.utils.text_dataset_from_directory( 'aclImdb/train', batch_size=batch_size, validation_split=0.2, subset='validation', seed=seed)

（2）这里展示出 2 条样本，每个样本都有一个标签和一个文本描述，标签 1 表示评论是 positive , 标签 0 表示评论是: negative 。

1 b'The first time I saw this film, I was in shock for days afterwards. Its painstaking and absorbing treatment of the subject holds the attention, helped by Good acting and some really intriguing music. The ending, quite simply, had me gasping. First rate!'
0 b"This is quite possibly the worst movie of all time. It stars Shaquille O'Neil and is about a rapping genie. Apparently someone out there thought that this was a good idea and got suckered into dishing out cash to produce this wonderful masterpiece. The movie gets 1 out of 10."

3. 处理数据

（1）为了保证在加载数据的时候不会出现 I/O 不会阻塞，我们在从磁盘加载完数据之后，使用 cache 会将数据保存在内存中，确保在训练模型过程中数据的获取不会成为训练速度的瓶颈。如果说要保存的数据量太大，可以使用 cache 创建磁盘缓存提高数据的读取效率。另外我们还使用 prefetch 在训练过程中可以并行执行数据的预获取。

AUTOTUNE = tf.data.AUTOTUNE
train_datas = train_datas.cache().prefetch(buffer_size=AUTOTUNE)
val_datas = val_datas.cache().prefetch(buffer_size=AUTOTUNE)

（2）将训练数据中的标签去掉，只保留文本描述，然后使用 TextVectorization 对数据进行预处理，先转换层小写英文，然后再将无用的字符剔除，并且我们规定了每个文本的最大长度为 100 个单词，超过的文本部分会被丢弃。最后将训练数据中的词都放入一个最大为 10000 的词汇表中，其中有一个特殊的表示 OOV 的 [UNK] ，也就说来自训练数据中的词只有 9999 个，使用 vectorize_layer 为每个单词进行 int 向量化，其实就是在文章开头提到的第二种向量化策略。

def handle(input_data):
    lowercase = tf.strings.lower(input_data)
    stripped_html = tf.strings.regex_replace(lowercase, '&lt;br /&gt;', ' ')
    return tf.strings.regex_replace(stripped_html, '[%s]' % re.escape(string.punctuation), '')
vocab_size = 10000
sequence_length = 100
vectorize_layer = TextVectorization(standardize=handle,
                                    max_tokens=vocab_size,
                                    output_mode='int',
                                    output_sequence_length=sequence_length)
text_datas = train_datas.map(lambda x, y: x)
vectorize_layer.adapt(text_datas)

4. 搭建、训练模型

我们此次搭建的模型是一个“Continuous bag of words" 风格的模型。

（1）第一层是已经上面初始化好的 vectorize_layer ，它可以将文本经过预处理，然后将分割出来的单词都赋予对应的整数。

（2）第二层是一个嵌入层，我们定义了词嵌入维度为 32，也就是为每一个词对应的整数都转换为一个 32 维的向量来进行表示，这些向量的值是可以在模型训练时进行学习的权重参数。通过此层输出的维度为：（batch_size, sequence_length, embedding_dim）。

（3）第三层是一个 GlobalAveragePooling1D 操作，因为每个样本的维度为 (sequence_length, embedding_dim) ，该操作可以按照对 sequence_length 维度求平均值来为每个样本返回一个固定长度的输出向量，最后输出的维度为：（batch_size, embedding_dim）。

（4）第四层是一个输出 32 维向量的全连接层操作，并且使用 relu 激活函数进行非线性变化。

（5）最后一层是一个输出 1 维向量的全连接层操作，表示该样本的属于 positive 的概率。

（6）优化器选择 Adam ，损失函数为 BinaryCrossentropy ，评估指标为 accuracy

embedding_dim=32
model = Sequential([
  vectorize_layer,
  Embedding(vocab_size, embedding_dim, name="embedding"),
  GlobalAveragePooling1D(),
  Dense(32, activation='relu'),
  Dense(1)
])
model.compile(optimizer='adam', loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),  metrics=['accuracy'])
model.fit(train_datas, validation_data=val_datas, epochs=20, callbacks=[tensorboard_callback])

训练过程打印：

Epoch 1/20
40/40 [==============================] - 3s 52ms/step - loss: 0.6898 - accuracy: 0.4985 - val_loss: 0.6835 - val_accuracy: 0.5060
Epoch 2/20
40/40 [==============================] - 2s 50ms/step - loss: 0.6654 - accuracy: 0.4992 - val_loss: 0.6435 - val_accuracy: 0.5228
...
Epoch 19/20
40/40 [==============================] - 2s 49ms/step - loss: 0.1409 - accuracy: 0.9482 - val_loss: 0.4532 - val_accuracy: 0.8210
Epoch 20/20
40/40 [==============================] - 2s 48ms/step - loss: 0.1327 - accuracy: 0.9528 - val_loss: 0.4681 - val_accuracy: 0.8216

5. 导出训练好的词嵌入向量

这里我们取出已经训练好的词嵌入，然后打印出前三个单词以及词向量，因为索引 0 的词是空字符，所以直接跳过了，只显示了两个单词的内容。我们可以将所有训练好的词嵌入向量都写入本地磁盘的文件，供以后使用。

weights = model.get_layer('embedding').get_weights()[0]
vocab = vectorize_layer.get_vocabulary()
for i, word in enumerate(vocab[:3]):
    if i == 0:
        continue   
    vecoter = weights[i]
    print(word,"||", ','.join([str(x) for x in vecoter]))

单词和对应词嵌入向量：

[UNK] || 0.020502748,-0.038312573,-0.036612183,-0.050346173,-0.07899615,-0.03143682,-0.06429587,0.07334388,-0.01887771,-0.08744612,-0.021639654,0.04726765,0.042426057,0.2240213,0.022607388,-0.08052631,0.023943739,0.05245169,-0.017815227,0.053340062,-0.033523336,0.057832733,-0.007486237,-0.16336738,0.022891225,0.12611994,-0.11084395,-0.0076115266,-0.03733231,-0.010371257,-0.045643456,-0.05392711
the || -0.029460065,-0.0021714368,-0.010394105,-0.03353872,-0.097529344,-0.05249973,-0.03901586,0.009200298,-0.085409686,-0.09302798,-0.07607663,0.046305165,-0.010357974,0.28357282,0.009442638,-0.036655612,0.063269086,0.06721396,0.063007854,0.03185595,-0.014642656,0.089468665,-0.014918188,-0.15671577,0.043026615,0.17086154,-0.0461816,0.021180542,-0.045269016,-0.101499856,-0.03948177,0.028299723

以上就是Tensorflow2.4从头训练Word Embedding实现文本分类的详细内容，更多关于Tensorflow Word Embedding的资料请关注编程网其它相关文章！

您可能感兴趣的文档:

--结束END--

本文标题: Tensorflow2.4从头训练Word Embedding实现文本分类

本文链接: https://lsjlt.com/news/177031.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Tensorflow2.4从头训练Word Embedding实现文本分类

目录

前言

具体介绍

1. 三种文本向量化方法

2. 获取数据

3. 处理数据

4. 搭建、训练模型

5. 导出训练好的词嵌入向量

Tensorflow2.4从头训练Word Embedding实现文本分类

Tensorflow2.4中怎么使用Word Embedding实现文本分类

python实现文本分类

python 使用Tensorflow训练BP神经网络实现鸢尾花分类

Tensorflow中怎么实现CNN文本分类

Keras如何实现文本分类任务

Tensorflow2.1实现文本中情感分类实现解析

Python深度学习之FastText实现文本分类详解

Shell脚本实现根据文件的修改时间来分类文件

Python通过朴素贝叶斯和LSTM分别实现新闻文本分类

循环神经网络TextRNN实现情感短文本分类任务

如何用Python实现自然语言处理中的文本分类？

Shell脚本怎么实现根据文件的修改时间来分类文件

Python如何通过朴素贝叶斯和LSTM分别实现新闻文本分类

自然语言处理中的Java编程：如何实现文本分类？

你知道吗？使用 PHP 和自然语言处理 API 可以轻松实现文本分类和情感分析！

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义