python对网页文本的格式化实例方法

2024-04-02 19:04:59 637人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

1、一个网页通常包含文本信息。对于不同的文本类型，我们可以选择合适的html语义元素进行标记。 2、em元素用于标记和强调部分内容，small元素用于注释和署名文本。实例 &l

1、一个网页通常包含文本信息。对于不同的文本类型，我们可以选择合适的html语义元素进行标记。

2、em元素用于标记和强调部分内容，small元素用于注释和署名文本。

实例


<body>
    <h1>论语学而篇第一</h1>
    <p><small>
    <b>作者：</b><abbr title="名丘，字仲尼">孔子<sup><a href="#" rel="external nofollow" >1</a></sup></abbr>（<time>前551年9月28日－前479年4月11日</time>）
    </small></p>
    <h2>本篇引语</h2>
    <p>《学而》是《论语》第一篇的篇名。《论语》中各篇一般都是以第一章的前二三个字作为该篇的篇名。《学而》一篇包括16章，内容涉及诸多方面。其中重点是
     <strong>「吾日三省吾身」；「节用而爱人，使民以时」；「礼之用，和为贵」以及仁、孝、信等</strong>道德范畴。</p>
    <h2>原文</h2>
    <p>子曰：「<mark>学而时习之，不亦说乎？</mark>有朋自远方来，不亦乐乎？人不知，而不愠，不亦君子乎？」 </p>
  </body>

知识点扩展：

Python int与string之间的转化

string–>int

1、10进制string转化为int

int(‘12')

2、16进制string转化为int

int(‘12', 16)

int–>string

1、int转化为10进制string

str(18)

2、int转化为16进制string

hex(18)

2 . 由于链家网上面选中第二页的时候，只是在页面后面多了一个“d2”, 如： Http://sh.lianjia.com/ershoufang/pudong/d2 ，所以要想爬取更多的网页只需要循环更新requests 的页面URL

3 . 增加了一个循环之后，可以打印所有的爬取结果


from lxml import etree
import requests
import string
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
price = 'p23'
finalURL = url+region+price

def spider_room(finallyURL):
   r= requests.get(finallyURL)
   html = requests.get(finalURL).content.decode('utf-8')
   dom_tree = etree.HTML(html)
   # all the messages
   all_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")
   for index in range(len(all_message)):
      print(all_message[index].xpath('string(.)').strip())
   return
for i in range(20):
   finallyURL = finalURL + '/d'+str(i)
   spider_room(finallyURL)

4 . 爬取了20页的内容，可是内容的结果输出的形式并没有改变

以上就是python对网页文本的格式化实例方法的详细内容，更多关于python爬虫中网页文本的格式化的资料请关注编程网其它相关文章！

您可能感兴趣的文档:

--结束END--

本文标题: python对网页文本的格式化实例方法

本文链接: https://lsjlt.com/news/137798.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

python对网页文本的格式化实例方法

1、一个网页通常包含文本信息。对于不同的文本类型，我们可以选择合适的HTML语义元素进行标记。 2、em元素用于标记和强调部分内容，small元素用于注释和署名文本。实例 &l...

99+

2024-04-02
HTML文本标签、列表和文本格式化的方法

这篇文章主要介绍“HTML文本标签、列表和文本格式化的方法”，在日常操作中，相信很多人在HTML文本标签、列表和文本格式化的方法问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”...

99+

2024-04-02
Python格式化字符串的案例方法

目录1.三种常用格式化字符串方式1.%作占位符2.使用format()3.使用 f 格式化2.字符串宽度和精度的写法1.%填充符表示法2.format()表示法3.字符串对齐方式1....

99+

2024-04-02
python format格式化和数字格式化的方法

这篇“python format格式化和数字格式化的方法”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“python...

99+

2023-06-29
Python实现按特定格式对文件进行读写的方法示例

本文实例讲述了Python实现按特定格式对文件进行读写的方法。分享给大家供大家参考，具体如下： #! /usr/bin/env python #coding=utf-8 class ResultFile...

99+

2022-06-04

示例格式文件
HTML5中文本格式化的示例分析

这篇文章将为大家详细讲解有关HTML5中文本格式化的示例分析，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。文本格式化：:加粗文字:斜体...

99+

2024-04-02
HTML中文本格式化的示例分析

这篇文章给大家分享的是有关HTML中文本格式化的示例分析的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。HTML 文本格式化<!DOCTYPE HTML> &...

99+

2024-04-02
iOS实现文本分页的方法示例

前言本篇文章将分为两部分,一部分是静态文本分页,一部分是动态文本分页即边填写文本边进行文本的分页. 我们所采用的方案为:TextKit进行处理,通过glyphRangeForTe...

99+

2022-05-22

ios 文本分页
Python格式化文本段落之textwrap库的示例分析

这篇文章主要介绍了Python格式化文本段落之textwrap库的示例分析，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。一、前言前文是针对普通的字符串数据进行处理。今天，我们...

99+

2023-06-15
js日期时间格式化的方法实例

js日期时间格式化将日期时间转换为指定格式，如：YYYY-mm-dd HH:MM表示2019-06-06 19:45 function dateFormat(fmt, date...

99+

2024-04-02
HTML文本格式化：揭秘网页排版设计背后的奥秘

HTML文本格式化是网页设计的基石，通过使用各种格式化标签，可以轻松地创建标题、段落、列表、链接等元素，实现网页内容的合理组织和呈现。HTML文本格式化标签可以分为结构标签、文本标签和列表标签三类。 1. 结构标签结构标签用于定义网页...

99+

2024-02-04

HTML 文本格式化网页排版设计布局
HTML文本格式化：从零到一，打造赏心悦目的网页

HTML文本格式化入门 HTML文本格式化可以分为以下几个方面：段落格式化：段落格式化主要包括设置段落的缩进、对齐方式、行高和文本间距等。字体格式化：字体格式化主要包括设置字体的字体、大小、颜色和样式等。列表格式化：列表格式化主...

99+

2024-02-04

HTML文本格式化网页设计文本排版文字样式文字字体
python对url格式解析的方法

本文实例讲述了python对url格式解析的方法。分享给大家供大家参考。具体分析如下： python针对url格式的解析，可根据指定的完整URL解析出url地址的各个部分 1 2 3 4 5 6 7 8 9 ...

99+

2023-01-31

格式方法 python
php实例化对象的实例方法

想要将类实例化成对象，只是多了一个简单的小步骤，需要使用new关键字并且在后面加上一个和类名同名的方法就可以了。表明一个新的对象。需要注意的是，当实例化对象不需要为对象传递参数时，...

99+

2024-04-02
HTML文本格式化实战：教你一步一步创建赏心悦目的网页

一、段落格式化段落是网页内容的基本单位，要格式化段落，可以使用标签，标签可以为段落添加间距和边距。还可以使用标签来换行，标签可以强制段落中的文本在指定位置换行。 这是段落一。 这...

99+

2024-02-13

HTML文本格式化标签属性段落标题项目列表链接
Go代码格式化gofmt的使用方法实例

目录gofmt使用1. -s2. -r3. go fmt和gofmt4. goland中配置gofmt总结gofmt使用对于一门编程语言来说，代码格式化是最容易引起争议的一个问题，...

99+

2023-05-16

go代码格式化gofmt go代码格式化 goland代码格式化
Bootstrap网页布局网格的实现方法

这篇文章主要介绍“Bootstrap网页布局网格的实现方法”，在日常操作中，相信很多人在Bootstrap网页布局网格的实现方法问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Bootstrap网页布局网格的实...

99+

2023-06-20
HTML文本格式化：让你的网页更具可读性和吸引力

段落：段落是HTML文本格式化中的基本单位，用于将文本内容划分为不同的逻辑块。段落可以通过标签来表示，每个段落的内容都应该放在标签和标签之间。例如： 这是一...

99+

2024-02-04

HTML 文本格式化段落标题列表字体
python中的格式化输出方法

目录1 使用字符串模运算符（%）格式化输出2 使用 format 方法格式化输出3 使用 String 方法格式化输出前言：有几种方法可以显示程序的输出。数据可以以人类可读的形...

99+

2024-04-02
python中解析json格式文件的方法示例

前言 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于JavaScript（Standard ECMA-262 3rd Edition - Decembe...

99+

2022-06-04

示例格式文件方法