大数据转AI Agent开发

第一阶段:环境与"武器库"准备

一、VMware虚拟机系统准备与基础配置

  1. 资源分配建议

    • CPU / 内存:4核 / 8GB。

    • 硬盘:分配 50GB – 100GB。

    • 网络:NAT 模式,确保虚拟机能连外网,且你的宿主机(物理机)能 ping 通它。

  2. 基础装机与 SSH 配置

    • 装好系统后,第一件事是配置静态 IP(方便后续连接)。

    • 确保开启 SSH 服务:

      # 1. 检查 SSH 服务当前状态(确认是否运行)
      systemctl status sshd
      # 2. 启动 SSH 服务(如果当前未运行)
      systemctl start sshd
      # 3. 设置 SSH 服务开机自启(确保系统重启后自动运行)
      systemctl enable sshd
      # 4. 验证开机自启是否配置成功
      systemctl is-enabled sshd
    • 远程连接工具 连接虚拟机

  3. 安装 Docker

    • 替换虚拟机原有yum源

      # 备份原有 yum 源配置
      mkdir -p /etc/yum.repos.d/bak
      mv /etc/yum.repos.d/CentOS-* /etc/yum.repos.d/bak/
      # 下载阿里云 CentOS 7 镜像源配置
      sudo curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo
      # 清理 yum 缓存并生成新缓存
      sudo yum clean all
      sudo yum makecache
    • 安装docker依赖包

      sudo yum install -y yum-utils device-mapper-persistent-data lvm2
    • 添加阿里镜像源

      sudo yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
    • 更新yum缓存

      sudo yum makecache fast
    • 安装Docker-CE

      sudo yum -y install docker-ce
    • 启动docker后台服务

      sudo systemctl start docker 
    • 重启docker服务

      sudo systemctl restart docker
    • 验证是否安装成功

      docker version
  4. Docker镜像加速器

    • 新建daemon.json文件
      cd /etc/docker
      vi daemon.json
      #复制下方加速器地址
      {
        "registry-mirrors":["https://gxeo3yz7.mirror.aliyuncs.com"]
      }
      
    • 重启daemon、docker服务
      #重启daemon
      sudo systemctl daemon-reload
      #重启docker
      sudo systemctl restart docker
      #检查是添加加速器是否成功
      docker info
    • docker镜像官方地址
      https://hub.docker.com/

二、配置Python 环境(隔离思维)

        在 AI 圈,各种开源库的依赖冲突极其严重。我们必须使用虚拟环境!这里强烈推荐安装 Miniconda,它是 AI 界的标配。

  1. 安装Miniconda
    # 安装wget(用于下载Miniconda安装包)
    sudo yum install -y wget
    # 切换到主目录
    cd ~
    # 官方源下载
    wget https://repo.anaconda.com/miniconda/Miniconda3-py39_4.12.0-Linux-x86_64.sh
    # 赋予执行权限
    chmod +x Miniconda3-py39_4.12.0-Linux-x86_64.sh
    # 交互式安装(安装提示操作:回车读协议→q跳过→输入yes同意→默认安装路径回车→输入yes初始化 Conda。)
    bash Miniconda3-py39_4.12.0-Linux-x86_64.sh
    # 重载bash配置
    source ~/.bashrc
    # 验证conda版本
    conda --version
  2. 创建AI专属环境
    # 创建一个名为 ai_agent,Python版本为 3.10 的纯净环境
    conda create -n ai_agent python=3.10 -y
    # 激活环境
    conda activate ai_agent

第三步:配置“人剑合一”的开发 IDE (Cursor / VS Code)

  1. 安装Cursor(官网:cursor.com)
    1. 优先使用google账号登陆
    2. 登陆最好使用美区ip以及美区Google账号
    3. 美区账号注册攻略可以借鉴:https://yingtu.ai/zh/blog/us-google-account-registration-guide
  2. 安装 Remote-SSH 插件

    • 打开 Cursor,ctrl + shift + x 搜索 Remote – SSH 点击安装。

  3. 连接虚拟机

    • 点击左下角<>,输入 Remote-SSH: Connect to Host…

    • 输入 ssh username@你的虚拟机IP,输入密码。

    • 连接成功后,在 Cursor 里点击 "Open Folder",打开你在虚拟机里的工作目录(比如 /home/username/ai_projects)。

第四步:获取 DeepSeek API 并配置项目依赖

        DeepSeek-V3/R1 目前是国内性价比和智商最高的模型,而且它完全兼容 OpenAI 的接口规范,以后可以无缝切换给 OpenAI、通义千问等任何主流模型

  1. 在你的虚拟机项目中安装依赖
    在 Cursor 底部的终端(Terminal)中(确保左侧显示 (ai_agent) 环境):

    pip install openai python-dotenv

    解释:openai 是我们用来发网络请求的官方 SDK库;python-dotenv 是用来安全读取本地环境变量配置文件的库。

  2. 创建环境变量配置文件 .env
    在你的项目根目录下,新建一个文件,名字就叫 .env,填入你的配置:

    # .env 文件
    DEEPSEEK_API_KEY="sk-xxxxxxxxxxxxxxxxxxx"
    DEEPSEEK_BASE_URL="https://api.deepseek.com/v1"

第五步:点火测试!你的第一个大模型 RPC 调用

在项目目录下新建一个 Python 文件:day0_hello_deepseek.py,把下面的代码粘进去:

import os
from dotenv import load_dotenv
# 虽然我们调用的是 DeepSeek,但由于它兼容 OpenAI 规范,所以我们使用 openai 库
from openai import OpenAI
# 1. 加载 .env 文件中的环境变量
load_dotenv()
# 2. 初始化客户端
# 这里是核心:把 api_key 和 base_url 替换成 DeepSeek 的配置
client = OpenAI(
    api_key=os.environ.get("DEEPSEEK_API_KEY"),
    base_url=os.environ.get("DEEPSEEK_BASE_URL")
)
def test_llm():
    print("🚀 正在向 DeepSeek 发送请求...")
    # 3. 发起 ChatCompletion 请求
    response = client.chat.completions.create(
        model="deepseek-chat", # 这里指定使用的是 deepseek-chat 模型
        messages=[
            {"role": "system", "content": "你是一个资深的大数据架构师,说话风格极其专业、简练。"},
            {"role": "user", "content": "你好同行!我是一名熟练掌握Spark和Flink的大数据开发,现在想转型做AI Agent。请用一句话给我打个气。"}
        ],
        temperature=0.7, # 控制输出的随机性(0最严谨,1最发散)
        max_tokens=100   # 限制输出的最大长度
    )
    # 4. 打印模型的回复内容
    reply = response.choices[0].message.content
    print("\n🤖 DeepSeek 架构师回复:\n")
    print(reply)
    print("\n✅ 测试成功!环境搭建完美通关!")
if __name__ == "__main__":
    test_llm()

🎯 验收标准

在 Cursor 的终端里运行:

python day0_hello_deepseek.py
© 版权声明

相关文章