bt天堂网在线最新版www,可以在线看的网址你懂的

一、建立IP代理池的思路：

做爬蟲時，遇到訪問太頻繁IP被封是難以避免的，而本地單個IP是不足以進行大規(guī)模爬取，并且自己并不想購買付費代理，那么，構建一個IP代理池是非常有必要的。思路如下：

圖1

二、建立IP 代理池的步驟：

爬取代理IP：搜索選擇代理IP網站，選取免費代理;代碼如下：

# _*_ coding：UTF-8 _*_

# 開發(fā)作者：Jason Zhang

# 創(chuàng)建時間：2020/12/29 17:58

# 文件名稱：爬取代理IP.PY

# 開發(fā)工具：PyCharm

import requests

import lxml.html

import os

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

}

url_list = ['http://www.xicidaili.com/nn/%r' % i for i in range(1,10)]

ip_list = []

for url in url_list:

r = requests.get(url,headers=headers)

etree = lxml.html.fromstring(r.text)

ips = etree.xpath('//tr[@class="odd"]')

for ip in ips:

IP = ip.xpath('//td/text()')

ip = IP[0] +':'+ IP[1]

ip_list.append(ip)

f = open('ip.txt','wb')

f.write(','.join(ip_list).encode('utf-8'))

f.close(

驗證代理IP：

通過網絡訪問來驗證代理IP的可用性和訪問速度，將之前爬取到的代理IP地址從ip.txt文件中提取出來，分別試用代理IP去訪問某個網站首頁，僅保留響應時間在2秒內的IP，并保存在QIP.txt中，代碼如下：

# _*_ coding：UTF-8 _*_

# 開發(fā)作者：關中老玉米

# 創(chuàng)建時間：2020/12/29 18:27

# 文件名稱：驗證代理IP.PY

# 開發(fā)工具：PyCharm

import requests

ip_list = open('ip.txt').read().split(',')

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'

}

url = 'https://www.baidu.com' #用百度來測試IP是否能正常連網

for i in ip_list: #設置超時時間timeout為2 s，超時則為不可用IP

r = requests.get(url, proxies={'http': 'http://' + ip[i]}, headers=headers,timeout=2)

if r.text:

qip.append(qip[i])

else:

continue

f = open('quality_ip.txt','wb')

f.write(','.join(quality_ip).encode('utf-8'))

f.close()

使用代理IP：

建立IP代理池之后，有以下兩種使用代理IP的方式。

# _*_ coding：UTF-8 _*_

# 開發(fā)作者：Jason Zhang

# 創(chuàng)建時間：2020/12/31 18:03

# 文件名稱：使用代理IP.PY

# 開發(fā)工具：PyCharm

# (1)使用隨機 IP，代碼如下：

import random

import requests

ip_list = open('quality_ip.txt').read().split(',')

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

}

url = 'http://*********'

r = requests.get(url, proxies={'http': 'http://'+random.choice(ip_list)},headers=headers)

# (2)因為免費的代理時效很短，在后續(xù)的爬取任務中很容易失效，所以當出現訪問錯誤(響應碼不等于 200)時，更換 IP，代碼如下：

ip_list = open('qip.txt').read().split(',')

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

}

for ip in ip_list:

for i in range(len(url_list)):

r = requests.get(url_list[i], proxies={'http': 'http://'+ip},headers=headers)

if r.status_code != 200:

break

本文由網上采集發(fā)布，不代表我們立場，轉載聯(lián)系作者并注明出處：http://m.zltfw.cn/shbk/39312.html

稱為兩榜出身的是（兩榜出身是什么意思）

在科舉考試盛行的唐朝時期，進士會試分甲、乙兩科，即稱所謂的兩榜而到了清朝，會試即進士會試，鄉(xiāng)試即舉人試，分別為甲榜、乙榜，合稱兩榜，下面...

2023-07-05 0

牂牁江怎么讀（牂牁江的拼音）

牂牁江讀作zāng kē jiāng牂牁江風景區(qū)牂牁江景區(qū)位于貴州省六盤水市六枝特區(qū)西部，距離六枝特區(qū)中心區(qū)62公里，距六盤水市中心75公里沿水黃(水城到黃果...

2023-07-04 2

書寫高原戍邊的忠誠答卷（致敬戍邊英雄勇立時代新功）

你們牢記黨和人民賦予的使命，堅守在生命禁區(qū)，用青春和熱血守衛(wèi)著祖國的神圣領土，出色完成了擔負的任務大家都是好樣的在中秋佳節(jié)即將來臨之際，...

2023-07-04 4

ip代理服務器搭建（搭建穩(wěn)定的代理ip池）

一、建立IP代理池的思路：

二、建立IP 代理池的步驟：

小米主題美化（小米miui主題破解破解入門技能）

稱為兩榜出身的是（兩榜出身是什么意思）

牂牁江怎么讀（牂牁江的拼音）

史上最全五禽戲教學（最全專業(yè)五禽戲）

漢樂府民歌有哪些（漢代樂府民歌）

書寫高原戍邊的忠誠答卷（致敬戍邊英雄勇立時代新功）

浙江李蘭娟院士最新研究成果（李蘭娟院士夫婦相愛45年

兄弟四色激光打印機（功能全面還支持WiFi）

不能忘卻的紀念原文魯迅（不能忘卻的紀念）

山西省合并了多少個縣（山西合并縣一覽表）

聯(lián)系我們

ip代理服務器搭建（搭建穩(wěn)定的代理ip池）

一、建立IP代理池的思路：

二、建立IP 代理池的步驟：

相關推薦

聯(lián)系我們

一、建立IP代理池的思路：

二、建立IP 代理池的步驟：