返回顶部
首页 > 资讯 > 后端开发 > Python >Python实现博客快速备份的脚本分享
  • 683
分享到

Python实现博客快速备份的脚本分享

2024-04-02 19:04:59 683人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

目录转存文章到MD转存图片到本地鉴于有些小伙伴在寻找博客园迁移到个人博客的方案,本人针对博客园实现了一个自动备份脚本,可以快速将博客园中自己的文章备份成markdown格式的独立文件

鉴于有些小伙伴在寻找博客园迁移到个人博客的方案,本人针对博客园实现了一个自动备份脚本,可以快速将博客园中自己的文章备份成markdown格式的独立文件,备份后的md文件可以直接放入到hexo博客中,快速生成自己的站点,而不需要自己逐篇文章迁移,提高了备份文章的效率。

首先第一步将博客园主题替换为codinglife默认主题,第二步登录到自己的博客园后台,然后选择博客备份,备份所有的随笔文章,如下所示:

备份出来以后将其命名为backup.xml,然后新建一个main.py脚本,以及一个blog目录,代码实现的原理是,解析xml格式并依次提取出文档内容,然后分别保存为markdown文件。

转存文章到MD

写入备份脚本,代码如下所示,运行后即可自动转存文件到blog目录下,当运行结束后备份也就结束了。

# powerby: LyShark
# blog: www.cnblogs.com/lyshark
from bs4 import BeautifulSoup
import requests, os,re

header = {"User-Agent": "Mozilla/5.0 (windows NT 6.1; WOW64) AppleWEBKit/537.36 (Khtml, like Gecko) By LyShark CnblogsBlog Backup Script"}

# 获取文章,并转成markdown
# blog: www.lyshark.com
def GetMarkDown(xml_file):
    con = open(xml_file, 'r', encoding='utf8').read()
    # 每篇文章都在 <item> 标签里
    items = re.findall("<item>.*?</item>", con, re.I | re.M | re.S)
    ele2 = ['<title>(.+?)</title>', '<link>(.+?)</link>', '<description>(.+?)</description>']
    # md_name = xml_file.split('.xml')[0] + '.md'
    for item in items:
        try:
            title = re.findall(ele2[0], item, re.I | re.S | re.M)[0]
            link = re.findall(ele2[1], item, re.I | re.S | re.M)[0]
            des = re.findall(ele2[2], item, re.I | re.S | re.M)[0]
            des = re.findall('<!\[CDATA\[(.+?)\]\]>', des, re.I | re.S | re.M)[0]  # CDATA 里面放的是文章的内容
            des = des.replace('~~~', "```")
            lines = des.split('\n')
            with open("./blog/" + title.replace("/","") + ".md", mode='w+', encoding='utf8') as f:
                f.write("---\n")
                f.write("title: '{}'\n".fORMat(title.replace("##","").replace("###","").replace("-","").replace("*","").replace("<br>","").replace(":","").replace(":","").replace(" ","").replace(" ","").replace("`","")))
                f.write("copyright: true\n")

                setdate = "2018-12-27 00:00:00"
                try:
                    # 读取时间
                    response = requests.get(url=link, headers=header)
                    print("读取状态: {}".format(response.status_code))

                    if response.status_code == 200:
                        bs = BeautifulSoup(response.text, "html.parser")
                        ret = bs.select('span[id="post-date"]')[0]
                        setdate = str(ret.text)
                        pass
                    else:
                        f.write("date: '2018-12-27 00:00:00'\n")
                except Exception:
                    f.write("date: '2018-12-27 00:00:00'\n")
                    pass

                f.write("date: '{}'\n".format(setdate))

                # description检测
                description_check = lines[0].replace("##","").replace("###","").replace("-","").replace("*","").replace("<br>","").replace(":","").replace(":","").replace(" ","").replace(" ","")
                if description_check == "":
                    f.write("description: '{}'\n".format("该文章暂无概述"))
                elif description_check == "```C":
                    f.write("description: '{}'\n".format("该文章暂无概述"))
                elif description_check == "```python":
                    f.write("description: '{}'\n".format("该文章暂无概述"))
                else:
                    f.write("description: '{}'\n".format(description_check))

                print("[*] 时间: {} --> 标题: {}".format(setdate, title))
                f.write("tags: '{}'\n".format("tags10245"))
                f.write("cateGories: '{}'\n".format("categories10245"))
                f.write("---\n\n")
                f.write('%s' %des)
                f.close()
        except Exception:
            pass

if __name__ == "__main__":
    GetMarkDown("backup.xml")

备份后的效果如下所示:

打开Markdown格式看一下,此处的标签和分类使用了一个别名,在备份下来以后,你可以逐个区域进行替换,将其替换成自己需要的分类类型即可。

转存图片到本地

接着就是继续循环将博客中所有图片备份下来,同样新建一个image文件夹,并运行如下代码实现备份。

# powerby: LyShark
# blog: www.cnblogs.com/lyshark
from bs4 import BeautifulSoup
import requests, os,re

header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) By LyShark CnblogsBlog Backup Script"}

# 从备份XML中找到URL
# blog: www.cnblogs.com/lyshark
def GetURL(xml_file):
    blog_url = []
    con = open(xml_file, 'r', encoding='utf8').read()
    items = re.findall("<item>.*?</item>", con, re.I | re.M | re.S)
    ele2 = ['<title>(.+?)</title>', '<link>(.+?)</link>', '<description>(.+?)</description>']
    for item in items:
        title = re.findall(ele2[0], item, re.I | re.S | re.M)[0]
        link = re.findall(ele2[1], item, re.I | re.S | re.M)[0]
        print("标题: {} --> URL: {} ".format(title,link))
        blog_url.append(link)
    return blog_url

# 下载所有图片
# blog: www.lyshark.com
def DownloadURLPicture(url):
    params = {"encode": "utf-8"}
    response = requests.get(url=url, params=params, headers=header)
    # print("网页编码方式: {} -> {}".format(response.encoding,response.apparent_encoding))
    context = response.text.encode(response.encoding).decode(response.apparent_encoding, "ignore")
    try:
        bs = BeautifulSoup(context, "html.parser")
        ret = bs.select('div[id="cnblogs_post_body"] p img')
        for item in ret:
            try:
                img_src_path = item.get("src")
                img_src_name = img_src_path.split("/")[-1]
                print("[+] 下载图片: {} ".format(img_src_name))
                img_download = requests.get(url=img_src_path, headers=header, stream=True)
                with open("./image/" + img_src_name, "wb") as fp:
                    for chunk in img_download.iter_content(chunk_size=1024):
                        fp.write(chunk)
            except Exception:
                print("下载图片失败: {}".format(img_src_name))
                pass
    except Exception:
        pass

if __name__ == "__main__":
    url = GetURL("backup.xml")
    for u in url:
        DownloadURLPicture(u)

备份后的效果如下:

替换文章内的图片链接地址,可以使用编辑器,启用正则批量替换。

当把博客备份下来以后你就可以把这些文章拷贝到hexo博客_post目录下面,然后hexo命令快速渲染生成博客园的镜像站点,这样也算是增加双保险了。

到此这篇关于Python实现博客快速备份的脚本分享的文章就介绍到这了,更多相关Python备份博客内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python实现博客快速备份的脚本分享

本文链接: https://lsjlt.com/news/120266.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python实现博客快速备份的脚本分享
    目录转存文章到MD转存图片到本地鉴于有些小伙伴在寻找博客园迁移到个人博客的方案,本人针对博客园实现了一个自动备份脚本,可以快速将博客园中自己的文章备份成Markdown格式的独立文件...
    99+
    2024-04-02
  • mysql的备份脚本分享
    本篇内容介绍了“mysql的备份脚本分享”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!#!/bin/bas...
    99+
    2024-04-02
  • Python实现新浪博客备份的方法
    本文实例讲述了Python实现新浪博客备份的方法。分享给大家供大家参考,具体如下: Python2.7.2版本实现,推荐在IDE中运行。 # -*- coding:UTF-8 -*- # ''' Cre...
    99+
    2022-06-04
    新浪 备份 方法
  • mysql数据备份的脚本分享
    本篇内容主要讲解“mysql数据备份的脚本分享”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“mysql数据备份的脚本分享”吧!  #!/usr/bin...
    99+
    2024-04-02
  • Python实现简单的文件传输与MySQL备份的脚本分享
    用python实现简单Server/Client文件传输: 服务器端: #!/usr/bin/python import SocketServer, time class MyServer(Socket...
    99+
    2022-06-04
    脚本 备份 文件传输
  • 自动备份MYSQL的linux脚本分享
    本篇内容主要讲解“自动备份MYSQL的linux脚本分享”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“自动备份MYSQL的linux脚本分享”吧! 这是我写的...
    99+
    2024-04-02
  • python 脚本实现备份文件
    ''' 功能:备份文件 版本:1.0 作者:白 ''' import  os,time,sys d_dir = '/data/backup/' d_file = 'system_bak.tar.gz' s_dir = ['/etc','/b...
    99+
    2023-01-31
    脚本 备份文件 python
  • 备份MySQL数据库的Bash脚本分享
    这篇文章主要讲解了“备份MySQL数据库的Bash脚本分享”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“备份MySQL数据库的Bash脚本分享”吧!  #!...
    99+
    2024-04-02
  • shell脚本实现快速生成xml格式sitemap实例分享
    用shell快速生成xml格式的sitemap地图文件,中小型网站适用。在本次案例中,生成12053条URL的sitemap文件,仅用时4.3秒!shell代码如下: cat sitemap.txt|aw...
    99+
    2022-06-04
    脚本 实例 快速
  • mysql的一键备份数据的脚本分享
    本篇内容主要讲解“mysql的一键备份数据的脚本分享”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“mysql的一键备份数据的脚本分享”吧!#/bin/sh #b...
    99+
    2024-04-02
  • CentOS下mysql定时备份的Shell脚本分享
    这篇文章主要讲解了“CentOS下mysql定时备份的Shell脚本分享”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“CentOS下mysql定时备份的Shell脚本分享”吧!1、备份语句&...
    99+
    2023-06-09
  • shell实现自动备份mysql、整站数据的两个脚本分享
    案例一:shell+cron实现MySQL自动备份且自动删除N天前备份 #!/bin/shDUMP=/usr/local/mysql/bin/mysqldumpOUT_DIR=/home/ldl/xxx/b...
    99+
    2022-06-04
    脚本 自动备份 两个
  • VBS调用WMI快速关闭IE的脚本分享
    本篇内容介绍了“VBS调用WMI快速关闭IE的脚本分享”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!VBS调用WMI秒杀IE把以下文件存为K...
    99+
    2023-06-08
  • mongodb增量备份脚本的实现
    mongodb增量备份脚本的实现?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。mongodb集群架构时,从库是通过异步复制主库的Oplog...
    99+
    2024-04-02
  • 简单的远程FTP定时备份Shell脚本分享
    先说问题.公司现在有2台服务器,都是centos系统,一台本地(局域网),一台则在电信机房.因为工作需要,每天备份机房上的数据到本地,以前一直是FTP登录,然后下载到本地机器.现在则希望,利用本地的cent...
    99+
    2022-06-04
    脚本 备份 简单
  • 分享一个对CentOS系统进行备份的脚本
    分享一个对CentOS系统进行备份的脚本?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。#!/bin/sh#设定变量bak_path=/root/bak_linu...
    99+
    2023-06-07
  • Linux实现文件定期本地备份/异地备份/删除备份的脚本
    目录一.背景二.依赖功能介绍1.expect2.cron3.liunx的三个时间atime,mtime,ctime三.本地备份脚本四.异地备份脚本五.定期删除备份六.github脚本地址一.背景 1.总会出出现环境上的数...
    99+
    2024-04-02
  • centos每天自动备份mysql数据库的脚本分享
    本篇内容主要讲解“centos每天自动备份mysql数据库的脚本分享”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“centos每天自动备份mysql数据库的脚本...
    99+
    2024-04-02
  • 一键备份MySQL数据库的批处理脚本分享
    这篇文章主要讲解了“一键备份MySQL数据库的批处理脚本分享”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“一键备份MySQL数据库的批处理脚本分享”吧!将如下代码另存为.bat文件 代码如下...
    99+
    2023-06-08
  • 自动备份MySQL到FTP并定期清理过期备份的Shell脚本分享
    这篇文章主要介绍“自动备份MySQL到FTP并定期清理过期备份的Shell脚本分享”,在日常操作中,相信很多人在自动备份MySQL到FTP并定期清理过期备份的Shell脚本分享问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希...
    99+
    2023-06-09
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作