返回顶部
首页 > 资讯 > 后端开发 > Python >python对网页文本的格式化实例方法
  • 637
分享到

python对网页文本的格式化实例方法

2024-04-02 19:04:59 637人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

1、一个网页通常包含文本信息。对于不同的文本类型,我们可以选择合适的html语义元素进行标记。 2、em元素用于标记和强调部分内容,small元素用于注释和署名文本。 实例 &l

1、一个网页通常包含文本信息。对于不同的文本类型,我们可以选择合适的html语义元素进行标记。

2、em元素用于标记和强调部分内容,small元素用于注释和署名文本。

实例


<body>
    <h1>论语学而篇第一</h1>
    <p><small>
    <b>作者:</b><abbr title="名丘,字仲尼">孔子<sup><a href="#" rel="external nofollow" >1</a></sup></abbr>(<time>前551年9月28日-前479年4月11日</time>)
    </small></p>
    <h2>本篇引语</h2>
    <p>《学而》是《论语》第一篇的篇名。《论语》中各篇一般都是以第一章的前二三个字作为该篇的篇名。《学而》一篇包括16章,内容涉及诸多方面。其中重点是
     <strong>「吾日三省吾身」;「节用而爱人,使民以时」;「礼之用,和为贵」以及仁、孝、信等</strong>道德范畴。</p>
    <h2>原文</h2>
    <p>子曰:「<mark>学而时习之,不亦说乎?</mark>有朋自远方来,不亦乐乎?人不知,而不愠,不亦君子乎?」 </p>
  </body>

知识点扩展:

Python int与string之间的转化

string–>int

1、10进制string转化为int

int(‘12')

2、16进制string转化为int

int(‘12', 16)

int–>string

1、int转化为10进制string

str(18)

2、int转化为16进制string

hex(18)

2 . 由于链家网上面选中第二页的时候,只是在页面后面多了一个“d2”, 如: Http://sh.lianjia.com/ershoufang/pudong/d2 , 所以要想爬取更多的网页只需要循环更新requests 的页面URL

3 . 增加了一个循环之后,可以打印所有的爬取结果


from lxml import etree
import requests
import string
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
price = 'p23'
finalURL = url+region+price

def spider_room(finallyURL):
   r= requests.get(finallyURL)
   html = requests.get(finalURL).content.decode('utf-8')
   dom_tree = etree.HTML(html)
   # all the messages
   all_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")
   for index in range(len(all_message)):
      print(all_message[index].xpath('string(.)').strip())
   return
for i in range(20):
   finallyURL = finalURL + '/d'+str(i)
   spider_room(finallyURL)

4 . 爬取了20页的内容,可是内容的结果输出的形式并没有改变

以上就是python对网页文本的格式化实例方法的详细内容,更多关于python爬虫中网页文本的格式化的资料请关注编程网其它相关文章!

--结束END--

本文标题: python对网页文本的格式化实例方法

本文链接: https://lsjlt.com/news/137798.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python对网页文本的格式化实例方法
    1、一个网页通常包含文本信息。对于不同的文本类型,我们可以选择合适的HTML语义元素进行标记。 2、em元素用于标记和强调部分内容,small元素用于注释和署名文本。 实例 &l...
    99+
    2024-04-02
  • HTML文本标签、列表和文本格式化的方法
    这篇文章主要介绍“HTML文本标签、列表和文本格式化的方法”,在日常操作中,相信很多人在HTML文本标签、列表和文本格式化的方法问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”...
    99+
    2024-04-02
  • Python格式化字符串的案例方法
    目录1.三种常用格式化字符串方式1.%作占位符2.使用format()3.使用 f 格式化2.字符串宽度和精度的写法1.%填充符表示法2.format()表示法3.字符串对齐方式1....
    99+
    2024-04-02
  • python format格式化和数字格式化的方法
    这篇“python format格式化和数字格式化的方法”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“python...
    99+
    2023-06-29
  • Python实现按特定格式对文件进行读写的方法示例
    本文实例讲述了Python实现按特定格式对文件进行读写的方法。分享给大家供大家参考,具体如下: #! /usr/bin/env python #coding=utf-8 class ResultFile...
    99+
    2022-06-04
    示例 格式 文件
  • HTML5中文本格式化的示例分析
    这篇文章将为大家详细讲解有关HTML5中文本格式化的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。文本格式化:<b>:加粗文字<i>:斜体...
    99+
    2024-04-02
  • HTML中文本格式化的示例分析
    这篇文章给大家分享的是有关HTML中文本格式化的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。HTML 文本格式化<!DOCTYPE HTML> &...
    99+
    2024-04-02
  • iOS实现文本分页的方法示例
    前言 本篇文章将分为两部分,一部分是静态文本分页,一部分是动态文本分页即边填写文本边进行文本的分页. 我们所采用的方案为:TextKit进行处理,通过glyphRangeForTe...
    99+
    2022-05-22
    ios 文本 分页
  • Python格式化文本段落之textwrap库的示例分析
    这篇文章主要介绍了Python格式化文本段落之textwrap库的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。一、前言前文是针对普通的字符串数据进行处理。今天,我们...
    99+
    2023-06-15
  • js日期时间格式化的方法实例
    js日期时间格式化 将日期时间转换为指定格式,如:YYYY-mm-dd HH:MM表示2019-06-06 19:45 function dateFormat(fmt, date...
    99+
    2024-04-02
  • HTML文本格式化:揭秘网页排版设计背后的奥秘
    HTML文本格式化是网页设计的基石,通过使用各种格式化标签,可以轻松地创建标题、段落、列表、链接等元素,实现网页内容的合理组织和呈现。HTML文本格式化标签可以分为结构标签、文本标签和列表标签三类。 1. 结构标签 结构标签用于定义网页...
    99+
    2024-02-04
    HTML 文本格式化 网页排版 设计 布局
  • HTML文本格式化:从零到一,打造赏心悦目的网页
    HTML文本格式化入门 HTML文本格式化可以分为以下几个方面: 段落格式化:段落格式化主要包括设置段落的缩进、对齐方式、行高和文本间距等。 字体格式化:字体格式化主要包括设置字体的字体、大小、颜色和样式等。 列表格式化:列表格式化主...
    99+
    2024-02-04
    HTML文本格式化 网页设计 文本排版 文字样式 文字字体
  • python对url格式解析的方法
    本文实例讲述了python对url格式解析的方法。分享给大家供大家参考。具体分析如下: python针对url格式的解析,可根据指定的完整URL解析出url地址的各个部分 1 2 3 4 5 6 7 8 9 ...
    99+
    2023-01-31
    格式 方法 python
  • php实例化对象的实例方法
    想要将类实例化成对象,只是多了一个简单的小步骤,需要使用new关键字并且在后面加上一个和类名同名的方法就可以了。表明一个新的对象。 需要注意的是,当实例化对象不需要为对象传递参数时,...
    99+
    2024-04-02
  • HTML文本格式化实战:教你一步一步创建赏心悦目的网页
    一、段落格式化 段落是网页内容的基本单位,要格式化段落,可以使用标签,标签可以为段落添加间距和边距。还可以使用标签来换行,标签可以强制段落中的文本在指定位置换行。 <p>这是段落一。</p> <p>这...
    99+
    2024-02-13
    HTML文本格式化 标签 属性 段落 标题 项目列表 链接
  • Go代码格式化gofmt的使用方法实例
    目录gofmt使用1. -s2. -r3. go fmt和gofmt4. goland中配置gofmt总结gofmt使用 对于一门编程语言来说,代码格式化是最容易引起争议的一个问题,...
    99+
    2023-05-16
    go代码格式化gofmt go代码格式化 goland代码格式化
  • Bootstrap网页布局网格的实现方法
    这篇文章主要介绍“Bootstrap网页布局网格的实现方法”,在日常操作中,相信很多人在Bootstrap网页布局网格的实现方法问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Bootstrap网页布局网格的实...
    99+
    2023-06-20
  • HTML文本格式化:让你的网页更具可读性和吸引力
    段落: 段落是HTML文本格式化中的基本单位,用于将文本内容划分为不同的逻辑块。段落可以通过<p>标签来表示,每个段落的内容都应该放在<p>标签和</p>标签之间。例如: <p>这是一...
    99+
    2024-02-04
    HTML 文本格式化 段落 标题 列表 字体
  • python中的格式化输出方法
    目录1 使用字符串模运算符(%)格式化输出2 使用 format 方法格式化输出​3 使用 String 方法格式化输出前言: 有几种方法可以显示程序的输出。 数据可以以人类可读的形...
    99+
    2024-04-02
  • python中解析json格式文件的方法示例
    前言 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于JavaScript(Standard ECMA-262 3rd Edition - Decembe...
    99+
    2022-06-04
    示例 格式文件 方法
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作