返回顶部
首页 > 资讯 > 数据库 >Python实现 多进程导入CSV数据到 MySQL
  • 826
分享到

Python实现 多进程导入CSV数据到 MySQL

进程数据Python 2022-06-04 18:06:05 826人浏览 独家记忆
摘要

前段时间帮同事处理了一个把 CSV 数据导入到 Mysql 的需求。两个很大的 CSV 文件, 分别有 3GB、2100 万条记录和 7GB、3500 万条记录。对于这个量级的数据,用简单的单进程/单线程导

前段时间帮同事处理了一个把 CSV 数据导入到 Mysql 的需求。两个很大的 CSV 文件, 分别有 3GB、2100 万条记录和 7GB、3500 万条记录。对于这个量级的数据,用简单的单进程/单线程导入 会耗时很久,最终用了多进程的方式来实现。具体过程不赘述,记录一下几个要点:

批量插入而不是逐条插入 为了加快插入速度,先不要建索引 生产者和消费者模型,主进程读文件,多个 worker 进程执行插入 注意控制 worker 的数量,避免对 mysql 造成太大的压力 注意处理脏数据导致的异常 原始数据是 GBK 编码,所以还要注意转换成 UTF-8 用 click 封装命令行工具

具体的代码实现如下:


#!/usr/bin/env python
# -*- coding: utf-8 -*-

import codecs
import csv
import logging
import multiprocessing
import os
import warnings

import click
import Mysqldb
import sqlalchemy

warnings.filterwarnings('ignore', cateGory=MySQLdb.Warning)

# 批量插入的记录数量
BATCH = 5000

DB_URI = 'mysql://root@localhost:3306/example?charset=utf8'

engine = sqlalchemy.create_engine(DB_URI)


def get_table_cols(table):
  sql = 'SELECT * FROM `{table}` LIMIT 0'.fORMat(table=table)
  res = engine.execute(sql)
  return res.keys()


def insert_many(table, cols, rows, cursor):
  sql = 'INSERT INTO `{table}` ({cols}) VALUES ({marks})'.format(
      table=table,
      cols=', '.join(cols),
      marks=', '.join(['%s'] * len(cols)))
  cursor.execute(sql, *rows)
  logging.info('process %s inserted %s rows into table %s', os.getpid(), len(rows), table)


def insert_worker(table, cols, queue):
  rows = []
  # 每个子进程创建自己的 engine 对象
  cursor = sqlalchemy.create_engine(DB_URI)
  while True:
    row = queue.get()
    if row is None:
      if rows:
        insert_many(table, cols, rows, cursor)
      break

    rows.append(row)
    if len(rows) == BATCH:
      insert_many(table, cols, rows, cursor)
      rows = []


def insert_parallel(table, reader, w=10):
  cols = get_table_cols(table)

  # 数据队列,主进程读文件并往里写数据,worker 进程从队列读数据
  # 注意一下控制队列的大小,避免消费太慢导致堆积太多数据,占用过多内存
  queue = multiprocessing.Queue(maxsize=w*BATCH*2)
  workers = []
  for i in range(w):
    p = multiprocessing.Process(target=insert_worker, args=(table, cols, queue))
    p.start()
    workers.append(p)
    logging.info('starting # %s worker process, pid: %s...', i + 1, p.pid)

  dirty_data_file = './{}_dirty_rows.csv'.format(table)
  xf = open(dirty_data_file, 'w')
  writer = csv.writer(xf, delimiter=reader.dialect.delimiter)

  for line in reader:
    # 记录并跳过脏数据: 键值数量不一致
    if len(line) != len(cols):
      writer.writerow(line)
      continue

    # 把 None 值替换为 'NULL'
    clean_line = [None if x == 'NULL' else x for x in line]

    # 往队列里写数据
    queue.put(tuple(clean_line))
    if reader.line_num % 500000 == 0:
      logging.info('put %s tasks into queue.', reader.line_num)

  xf.close()

  # 给每个 worker 发送任务结束的信号
  logging.info('send close signal to worker processes')
  for i in range(w):
    queue.put(None)

  for p in workers:
    p.join()


def convert_file_to_utf8(f, rv_file=None):
  if not rv_file:
    name, ext = os.path.splitext(f)
    if isinstance(name, unicode):
      name = name.encode('utf8')
    rv_file = '{}_utf8{}'.format(name, ext)
  logging.info('start to process file %s', f)
  with open(f) as infd:
    with open(rv_file, 'w') as outfd:
      lines = []
      loop = 0
      chunck = 200000
      first_line = infd.readline().strip(codecs.BOM_UTF8).strip() + 'n'
      lines.append(first_line)
      for line in infd:
        clean_line = line.decode('gb18030').encode('utf8')
        clean_line = clean_line.rstrip() + 'n'
        lines.append(clean_line)
        if len(lines) == chunck:
          outfd.writelines(lines)
          lines = []
          loop += 1
          logging.info('processed %s lines.', loop * chunck)

      outfd.writelines(lines)
      logging.info('processed %s lines.', loop * chunck + len(lines))


@click.group()
def cli():
  logging.basicConfig(level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(name)s - %(message)s')


@cli.command('gbk_to_utf8')
@click.argument('f')
def convert_gbk_to_utf8(f):
  convert_file_to_utf8(f)


@cli.command('load')
@click.option('-t', '--table', required=True, help='表名')
@click.option('-i', '--filename', required=True, help='输入文件')
@click.option('-w', '--workers', default=10, help='worker 数量,默认 10')
def load_fac_day_pro_nos_sal_table(table, filename, workers):
  with open(filename) as fd:
    fd.readline()  # skip header
    reader = csv.reader(fd)
    insert_parallel(table, reader, w=workers)


if __name__ == '__main__':
  cli()

以上就是本文给大家分享的全部没人了,希望大家能够喜欢

您可能感兴趣的文档:

--结束END--

本文标题: Python实现 多进程导入CSV数据到 MySQL

本文链接: https://lsjlt.com/news/13665.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python实现 多进程导入CSV数据到 MySQL
    前段时间帮同事处理了一个把 CSV 数据导入到 MySQL 的需求。两个很大的 CSV 文件, 分别有 3GB、2100 万条记录和 7GB、3500 万条记录。对于这个量级的数据,用简单的单进程/单线程导...
    99+
    2022-06-04
    进程 数据 Python
  • mysql实现查询结果导出csv文件及导入csv文件到数据库操作
    本文实例讲述了mysql实现查询结果导出csv文件及导入csv文件到数据库操作。分享给大家供大家参考,具体如下: mysql 查询结果导出csv文件: select logtime, oper...
    99+
    2024-04-02
  • Python实现将MongoDB中的数据导入到MySQL
    本文主要介绍了一个将 MongoDB 中的数据导入到 mysql 中的 python 工具类 MongoToMysql。该工具类实现了获取 MongoDB 数据类型、创建 MySQL 表结构以及将数据从 MongoDB ...
    99+
    2023-05-05
    Python实现MongoDB数据导入MySQL Python MongoDB数据导入MySQL Python MongoDB MySQL
  • csv怎么导入mysql数据库
    本篇文章为大家展示了csv怎么导入mysql数据库,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。csv怎么导入mysql数据库1.使用navicat导入数据,进入n...
    99+
    2024-04-02
  • mysql如何实现查询结果导出csv文件及导入csv文件到数据库操作_Mysql
    小编给大家分享一下mysql如何实现查询结果导出csv文件及导入csv文件到数据库操作_Mysql,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一...
    99+
    2024-04-02
  • MySQL怎么循环导入CSV文件数据到数据库表
    要循环导入CSV文件数据到MySQL数据库表,可以使用以下步骤: 创建一个存储过程或脚本来循环读取CSV文件的数据并插入到数据库...
    99+
    2024-04-30
    MySQL
  • 批量导入csv格式数据到postgreSQL
    首先创建数据库: create database logs; -- 删除数据库: -- drop database logs; 创建数据表 创一个表,表结构应该可以完全容纳csv的数据结构。 首先csv文件结构大致如下: ...
    99+
    2015-06-05
    批量导入csv格式数据到postgreSQL
  • 怎么把csv导入mysql数据库
    通过使用 load data infile 命令,可以将 csv 文件导入 mysql 数据库中:准备 csv 文件:确保文件格式符合 mysql 识别规则。使用命令导入:使用 load...
    99+
    2024-08-05
    mysql
  • python 从csv读数据到mysql
    import csv import sys,os import MySQLdb def read_csv(filename): with open(filename) as f: f_csv = csv....
    99+
    2023-01-31
    读数 python csv
  • pg从csv文件导入数据到数据库中
    前置条件  linux环境下安装的pg  csv的tar.gz包已经上传到指定路径中(linux),建议表名个文件名一致   所有表和schema已建立 正式开始    1.在csv的tar包所在路径下,解压所有...
    99+
    2020-07-13
    pg从csv文件导入数据到数据库中
  • mysql中如何导入大量csv数据
    在MySQL中导入大量CSV数据,可以使用LOAD DATA INFILE语句。具体步骤如下: 确保CSV文件已经放置在服务器的...
    99+
    2024-04-09
    mysql
  • mysql数据库如何导入csv文件
    要导入CSV文件到MySQL数据库,可以使用MySQL的命令行工具或者通过MySQL Workbench进行操作。以下是使用命令行工...
    99+
    2024-04-22
    mysql
  • php如何实现sql server数据导入到mysql数据库
    这篇文章主要介绍了php如何实现sql server数据导入到mysql数据库的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇php如何实现sql server数据导入到mysql数据库文章都会有所收获,下面我们...
    99+
    2023-07-05
  • H2数据库导入CSV文件的实现原理
    这篇文章主要介绍“H2数据库导入CSV文件的实现原理”,在日常操作中,相信很多人在H2数据库导入CSV文件的实现原理问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”H2数据库导...
    99+
    2024-04-02
  • 怎么在Navicat中把csv数据导入mysql
    怎么在Navicat中把csv数据导入mysql?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。1.获取csv数据,用office另存为功能...
    99+
    2024-04-02
  • 如何将csv文件导入mysql数据库
    要将CSV文件导入MySQL数据库,您可以使用MySQL的LOAD DATA INFILE语句。以下是一个示例: 将CSV文件放...
    99+
    2024-04-09
    mysql
  • mysql多线程如何实现导出导入
    这篇文章主要为大家展示了“mysql多线程如何实现导出导入”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“mysql多线程如何实现导出导入”这篇文章吧。示例Bac...
    99+
    2024-04-02
  • python导入csv数据的方法是什么
    在Python中,可以使用`csv`模块来导入CSV数据。首先,需要导入`csv`模块:```pythonimport csv```...
    99+
    2023-09-12
    python
  • 如何进行Marketing Cloud contact主数据的csv导入
    今天就跟大家聊聊有关如何进行Marketing Cloud contact主数据的csv导入,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。使用这个mock数据生成器网站https:/...
    99+
    2023-06-04
  • PHP实现导入大量CSV数据的示例代码
    目录前言代码部分一. controller 写法二. yield 读取数据以及处理空行方法结论知识点补充前言 网上有很多介绍大量上传数据的,感觉都是一个抄一个,这是自己写的处理方式,...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作