爬虫入门

常用的库

requests语法

encoding #修改编码格式
apparent_encoding #获取编码格式
response.encoding = response.apparent_encoding
#获取到网页的编码格式,然后赋值给encoding修改

lxml语法

xpath语法

1、定位
.xpath(‘//a[@class=”xx”]’)
2、包含
.xpath(//li[contains(@clas,”item-“)])

下面是获取网站的link里面的href值

1
2
3
4
5
6
7
8
9
10
11
12
13
import requests
from lxml import etree
#导入库
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"}
#定义头部
url = 'https://www.1080p.club/'
#爬取的网站
r = requests.get(url,headers=headers).text
#发送请求,存储为text
html = etree.HTML(r)
#实例化对象为html
print(html.xpath('//link/@href'))
#使用xpath打印值