Crawlab部署教程

1. 部署的方式

部署的方式很多种,我这里用最简单的docker部署,没有安装的可以先安装docker

2. 下载 Crawlaw镜像

安装完docker后,直接下载crawlab镜像

docker pull tikazyq/crawlab:latest

3. 安装 Docker-Compose

安装 docker-compose 其实比较简单,在安装了 pip 的情况下(Python 3),执行以下命令。

pip3 install docker-compose

4. 安装并启动 Crawlab

在你的新建文件夹作为网址的文件,然后新建 docker-compose.yml,输入以下内容

version: '3.3'
services:
  master: 
    image: tikazyq/crawlab:latest
    container_name: master
    environment:
      CRAWLAB_SERVER_MASTER: "Y"
      CRAWLAB_MONGO_HOST: "mongo"
      CRAWLAB_REDIS_ADDRESS: "redis"
    ports:    
      - "8080:8080" # frontend
      - "8000:8000" # backend
    depends_on:
      - mongo
      - redis
  mongo:
    image: mongo:latest
    restart: always
    ports:
      - "27017:27017"
  redis:
    image: redis:latest
    restart: always
    ports:
      - "6381:6381"
  • 其中,我们设置了 Redis 和 MongoDB 的地址,分别通过 CRAWLAB_REDIS_ADDRESS 和 CRAWLAB_MONGO_HOST 参数。CRAWLAB_SERVER_MASTER 设置为 Y 表示启动的是主节点(该参数默认是为 N,表示为工作节点)
  • 注意: 在生产环境中,强烈建议您将数据库持久化,因为否则的话,一旦您的 Docker 容器发生意外导致关闭重启,您的数据将丢失。持久化的方法就是将上述 docker-compose.yml 模版中的关于持久化的代码取消注释就可以了。持久化的数据包括:MongoDB 数据库、Redis 数据库、日志。

安装完 docker-compose 和定义好 docker-compose.yml 后,只需要运行以下命令就可以启动 Crawlab。

docker-compose up -d

同样,在浏览器中输入 http://localhost:8080 就可以看到界面。
停止容器:docker-compose stop

5. 更新 / 重启 Crawlab

如果您需要更新最新的版本的镜像,只需要执行以下代码。

# 关闭并删除 Docker 容器
docker-compose down

# 拉取最新镜像
docker pull tikazyq/crawlab:latest

# 启动 Docker 容器
docker-compose up -d

6. 常见问题

  • 添加依赖文件 ,爬虫过程可以需要用都其他的第三方库,你需要手动新建依赖文件 requirements.txt,如果您不需要另外的依赖,则不用新建 requirements.txt 文件,或者进入docker的环境自己手动安装python的包
查看容器:docker ps 
进入容器:docker exec -it "ID" /bin/bash 

在这里插入图片描述

  • 如果文件上传,但是重启没有显示,上传的时候又显示已经存在,找到这个目录,
cd /app/spiders # 进入目录
ls  # 查看文件

在这里插入图片描述

参考1

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐