爬虫 – 晚风初歇

爬虫

2024-8-12 16:13

|

|

741

27 字

|

2 分钟

本文最后更新于260 天前，其中的信息可能已经过时，如有错误请发送邮件到1169063119@qq.com

获取页面

import requests  # 引入包requests
link = "http://www.santostang.com/"  # 定义link为目标网站
# 定义请求头的浏览器代理，伪装成浏览器
headers ={'User-Agent' : 'Mozilla/5.0 (windows; U; Windows NT'
                         ' 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

r = requests.get(link, headers=headers)  # 请求网页
print(r.text)  # response.text是获取的网页的内容

提取需要数据


soup = BeautifulSoup(r.text, 'html.parser')  # 使用BeautifulSoup解析

# 找到第一篇文章标题，定位到class是"post-title"的h1元素，提取a，提取a里面的字符串，strip()去除左右空格
title = soup.find("h1", class_="post-title").a.test.strip()
print(title)

文末附加内容