本文最后更新于14 天前,其中的信息可能已经过时,如有错误请发送邮件到1169063119@qq.com
获取页面
import requests # 引入包requests
link = "http://www.santostang.com/" # 定义link为目标网站
# 定义请求头的浏览器代理,伪装成浏览器
headers ={'User-Agent' : 'Mozilla/5.0 (windows; U; Windows NT'
' 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
r = requests.get(link, headers=headers) # 请求网页
print(r.text) # response.text是获取的网页的内容
提取需要数据
soup = BeautifulSoup(r.text, 'html.parser') # 使用BeautifulSoup解析
# 找到第一篇文章标题,定位到class是"post-title"的h1元素,提取a,提取a里面的字符串,strip()去除左右空格
title = soup.find("h1", class_="post-title").a.test.strip()
print(title)