采集15个代理IP网站，打造免费代理IP池

您当前所在的位置：首页 > 帮助中心 > 常见问题

行业小白扫盲

https://www.cnblogs.com/whnba/p/11878802.html

采集的站点：

免费代理IP http://ip.yqie.com/ipproxy.htm
66免费代理网 http://www.66ip.cn/
89免费代理 http://www.89ip.cn/
无忧代理 http://www.data5u.com/
云代理 http://www.ip3366.net/
快代理 https://www.kuaidaili.com/free/
极速专享代理 http://www.superfastip.com/
HTTP代理IP https://www.xicidaili.com/wt/
小舒代理 http://www.xsdaili.com
西拉免费代理IP http://www.xiladaili.com/
小幻HTTP代理 https://ip.ihuan.me/
全网代理IP http://www.goubanjia.com/
飞龙代理IP http://www.feilongip.com/

采集流程

第一步：获取页面内容

第二步：解析内容获取数据

第三步：数据格式转换

采集流程定制好了之后，把他创建为抽象类让所有站点去继承它, 子类只需要去实现抽象方法。这是一个比较典型的模板模式

基类

from abc import ABC, abstractmethodfrom typing import Listimport requestsimport bs4from .model import ProxyModelclass AbsFreeProxyBase(ABC):    # 请求
    http = requests    # 初始化
    def __init__(self, url, code, **kwargs):        """
        :param url: 请求地址
        :param code: 页面编码
        :param kw: 附加信息        """
        self.url = url
        self.code = code
        self.kwargs = kwargs
        self.beautifulsoup = bs4.BeautifulSoup    # 模板方法模式
    # 第一步 获取页面内容  第二步 解析内容  第二步 格式化数据
    def run(self) -> List[ProxyModel]:
        text = self.get_page_text()
        soup = self.beautifulsoup(text, 'lxml')
        data = self.parse_text(soup)        return self.to_proxy(data)    # 获取页面内容
    def get_page_text(self):
        res = AbsFreeProxyBase.http.get(self.url, **self.kwargs)        if not res.ok:
            res.raise_for_status()        return res.content.decode(self.code)    # 解析内容    @abstractmethod    def parse_text(self, soup: bs4.BeautifulSoup) -> List[list]:        pass

    # 格式转换    @abstractmethod    def to_proxy(self, data:List[list]) -> List[ProxyModel]:        pass

如：快代理网站

from .base import AbsFreeProxyBasefrom typing import Listfrom .model import ProxyModelimport re'''快代理
https://www.kuaidaili.com/free'''class WWW_KUAIDAILI_COM(AbsFreeProxyBase):    # 初始化
    def __init__(self, url, code='utf-8', **kwargs):
        super().__init__(url, code, **kwargs)    # 解析内容
    def parse_text(self, soup) -> List[list]:        """
        格式如下：
        IP     port(端口)     匿名度     类型(HTTP/https)     位置     响应速度     最后验证时间        """
        regex = re.compile(r'<td[^>]*>([^<>]+)</td>')
        rows = soup.select('.table-bordered tr')
        result = []        for row in [str(n) for n in rows]:
            item = regex.findall(row)
            item and result.append(item)        return result    # 格式转换
    def to_proxy(self, data: List[list]) -> List[ProxyModel]:
        result = []        for item in data:
            result.append(ProxyModel(item[3], item[0], item[1], item[2]))        return result

应用实列

from website import ProxyFactoryfrom browser.agent import useragent

factory = ProxyFactory()
headers = {    'user-agent': useragent.random()
}'''66免费代理网
www = factory.create('http://www.66ip.cn/mo.php?sxb=&tqsl=100&port=&export=&ktip=&sxa=&submit=%CC%E1++%C8%A1&textarea=',
                     'gbk',
                     headers=headers)''''''小幻HTTP代理 
www = factory.create('https://ip.ihuan.me/',headers = headers)''''''89免费代理 http://www.89ip.cn/
www = factory.create('http://www.89ip.cn/',headers = headers)''''''无忧代理 http://www.data5u.com/
www = factory.create('http://www.data5u.com/',headers = headers)''''''http://www.goubanjia.com/
全网代理IP 
www = factory.create('http://www.goubanjia.com/',headers = headers)''''''云代理 http://www.ip3366.net/
www = factory.create('http://www.ip3366.net/','gbk',headers = headers)''''''快代理
https://www.kuaidaili.com/free'''www = factory.create('https://www.kuaidaili.com/free',headers = headers)
data = www.run()print(data)

百度网盘

链接：https://pan.baidu.com/s/1aNiuGpcDmgvUR2HmZKR99Q
提取码：6u82

真实产品信息
免费测试评估
网络带宽大稳
专业服务团队

更多产品

HTTP代理

商务合作

QQ客服: 374417086

扫码关注

客服QQ

扫码加QQ
官方微信

扫码加微信

粤ICP备2020131248号-3 增值电信业务经营许可证:粤B1-20210253　国内互联网虚拟专用网业务:B1-20210463

一、用户协议

欢迎您注册成为本平台用户。在注册前，请仔细阅读本协议的全部内容。

二、用户账号

1. 用户账号由用户自行注册，用户需妥善保管账号密码，不得转让或出借。

2. 用户应对其账号下的所有行为负责。

3. 如发现账号异常使用，平台有权暂停或终止账号服务。

三、服务内容

1. 平台提供各类代理IP服务，包括动态代理和静态代理。

2. 用户应遵守平台规定，合理使用服务资源。

3. 平台有权根据业务调整服务内容，无需事先通知。

四、用户义务

1. 用户应遵守国家法律法规，不得利用平台服务从事违法活动。

2. 用户不得恶意攻击平台系统，不得干扰其他用户正常使用。

3. 用户应按时支付服务费用，逾期未付将影响服务使用。

五、隐私保护

1. 平台重视用户隐私保护，不会泄露用户个人信息。

2. 用户信息仅用于服务提供和安全验证。

3. 平台有权记录用户使用日志，用于安全分析和服务优化。

六、协议变更

1. 平台有权根据业务发展需要修改本协议。

2. 协议变更后，用户继续使用服务即表示同意新协议。

3. 用户如不同意变更，应停止使用平台服务。

七、免责声明

1. 平台尽力保证服务稳定性，但不承担因不可抗力导致的服务中断责任。

2. 用户使用代理服务产生的法律责任由用户自行承担。

3. 平台对用户数据不承担备份责任，建议用户自行备份重要数据。

八、协议终止

1. 用户可随时申请注销账号，终止服务。

2. 用户违反协议规定，平台有权终止服务并保留追究责任的权利。

3. 服务终止后，用户数据将在一定期限内保留，之后将被删除。

本协议最终解释权归平台所有

采集15个代理IP网站，打造免费代理IP池

联系我们

用户登录

用户注册

用户注册协议

一、用户协议

二、用户账号

三、服务内容

四、用户义务

五、隐私保护

六、协议变更

七、免责声明

八、协议终止

找回密码