爬虫
本文最后更新于14 天前,其中的信息可能已经过时,如有错误请发送邮件到1169063119@qq.com

获取页面

import requests  # 引入包requests
link = "http://www.santostang.com/"  # 定义link为目标网站
# 定义请求头的浏览器代理,伪装成浏览器
headers ={'User-Agent' : 'Mozilla/5.0 (windows; U; Windows NT'
                         ' 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

r = requests.get(link, headers=headers)  # 请求网页
print(r.text)  # response.text是获取的网页的内容

提取需要数据


soup = BeautifulSoup(r.text, 'html.parser')  # 使用BeautifulSoup解析

# 找到第一篇文章标题,定位到class是"post-title"的h1元素,提取a,提取a里面的字符串,strip()去除左右空格
title = soup.find("h1", class_="post-title").a.test.strip()
print(title)
文末附加内容
上一篇
下一篇