大数据转AI Agent开发
第一阶段:环境与"武器库"准备
一、VMware虚拟机系统准备与基础配置
-
资源分配建议:
-
CPU / 内存:4核 / 8GB。
-
硬盘:分配 50GB – 100GB。
-
网络:NAT 模式,确保虚拟机能连外网,且你的宿主机(物理机)能 ping 通它。
-
-
基础装机与 SSH 配置:
-
装好系统后,第一件事是配置静态 IP(方便后续连接)。
-
确保开启 SSH 服务:
# 1. 检查 SSH 服务当前状态(确认是否运行) systemctl status sshd # 2. 启动 SSH 服务(如果当前未运行) systemctl start sshd # 3. 设置 SSH 服务开机自启(确保系统重启后自动运行) systemctl enable sshd # 4. 验证开机自启是否配置成功 systemctl is-enabled sshd -
远程连接工具 连接虚拟机
-
-
安装 Docker:
-
替换虚拟机原有yum源
# 备份原有 yum 源配置 mkdir -p /etc/yum.repos.d/bak mv /etc/yum.repos.d/CentOS-* /etc/yum.repos.d/bak/ # 下载阿里云 CentOS 7 镜像源配置 sudo curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo # 清理 yum 缓存并生成新缓存 sudo yum clean all sudo yum makecache -
安装docker依赖包
sudo yum install -y yum-utils device-mapper-persistent-data lvm2 -
添加阿里镜像源
sudo yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -
更新yum缓存
sudo yum makecache fast -
安装Docker-CE
sudo yum -y install docker-ce -
启动docker后台服务
sudo systemctl start docker -
重启docker服务
sudo systemctl restart docker -
验证是否安装成功
docker version
-
-
Docker镜像加速器
- 新建daemon.json文件
cd /etc/docker vi daemon.json #复制下方加速器地址 { "registry-mirrors":["https://gxeo3yz7.mirror.aliyuncs.com"] } - 重启daemon、docker服务
#重启daemon sudo systemctl daemon-reload #重启docker sudo systemctl restart docker #检查是添加加速器是否成功 docker info - docker镜像官方地址
https://hub.docker.com/
- 新建daemon.json文件
二、配置Python 环境(隔离思维)
在 AI 圈,各种开源库的依赖冲突极其严重。我们必须使用虚拟环境!这里强烈推荐安装 Miniconda,它是 AI 界的标配。
- 安装Miniconda
# 安装wget(用于下载Miniconda安装包) sudo yum install -y wget # 切换到主目录 cd ~ # 官方源下载 wget https://repo.anaconda.com/miniconda/Miniconda3-py39_4.12.0-Linux-x86_64.sh # 赋予执行权限 chmod +x Miniconda3-py39_4.12.0-Linux-x86_64.sh # 交互式安装(安装提示操作:回车读协议→q跳过→输入yes同意→默认安装路径回车→输入yes初始化 Conda。) bash Miniconda3-py39_4.12.0-Linux-x86_64.sh # 重载bash配置 source ~/.bashrc # 验证conda版本 conda --version - 创建AI专属环境
# 创建一个名为 ai_agent,Python版本为 3.10 的纯净环境 conda create -n ai_agent python=3.10 -y # 激活环境 conda activate ai_agent
第三步:配置“人剑合一”的开发 IDE (Cursor / VS Code)
- 安装Cursor(官网:cursor.com)
- 优先使用google账号登陆
- 登陆最好使用美区ip以及美区Google账号
- 美区账号注册攻略可以借鉴:https://yingtu.ai/zh/blog/us-google-account-registration-guide
-
安装 Remote-SSH 插件:
-
打开 Cursor,ctrl + shift + x 搜索 Remote – SSH 点击安装。
-
-
连接虚拟机:
-
点击左下角<>,输入 Remote-SSH: Connect to Host…
-
输入 ssh username@你的虚拟机IP,输入密码。
-
连接成功后,在 Cursor 里点击 "Open Folder",打开你在虚拟机里的工作目录(比如 /home/username/ai_projects)。
-
第四步:获取 DeepSeek API 并配置项目依赖
DeepSeek-V3/R1 目前是国内性价比和智商最高的模型,而且它完全兼容 OpenAI 的接口规范,以后可以无缝切换给 OpenAI、通义千问等任何主流模型
-
在你的虚拟机项目中安装依赖:
在 Cursor 底部的终端(Terminal)中(确保左侧显示 (ai_agent) 环境):pip install openai python-dotenv解释:openai 是我们用来发网络请求的官方 SDK库;python-dotenv 是用来安全读取本地环境变量配置文件的库。
-
创建环境变量配置文件 .env:
在你的项目根目录下,新建一个文件,名字就叫 .env,填入你的配置:# .env 文件 DEEPSEEK_API_KEY="sk-xxxxxxxxxxxxxxxxxxx" DEEPSEEK_BASE_URL="https://api.deepseek.com/v1"
第五步:点火测试!你的第一个大模型 RPC 调用
在项目目录下新建一个 Python 文件:day0_hello_deepseek.py,把下面的代码粘进去:
import os
from dotenv import load_dotenv
# 虽然我们调用的是 DeepSeek,但由于它兼容 OpenAI 规范,所以我们使用 openai 库
from openai import OpenAI
# 1. 加载 .env 文件中的环境变量
load_dotenv()
# 2. 初始化客户端
# 这里是核心:把 api_key 和 base_url 替换成 DeepSeek 的配置
client = OpenAI(
api_key=os.environ.get("DEEPSEEK_API_KEY"),
base_url=os.environ.get("DEEPSEEK_BASE_URL")
)
def test_llm():
print("🚀 正在向 DeepSeek 发送请求...")
# 3. 发起 ChatCompletion 请求
response = client.chat.completions.create(
model="deepseek-chat", # 这里指定使用的是 deepseek-chat 模型
messages=[
{"role": "system", "content": "你是一个资深的大数据架构师,说话风格极其专业、简练。"},
{"role": "user", "content": "你好同行!我是一名熟练掌握Spark和Flink的大数据开发,现在想转型做AI Agent。请用一句话给我打个气。"}
],
temperature=0.7, # 控制输出的随机性(0最严谨,1最发散)
max_tokens=100 # 限制输出的最大长度
)
# 4. 打印模型的回复内容
reply = response.choices[0].message.content
print("\n🤖 DeepSeek 架构师回复:\n")
print(reply)
print("\n✅ 测试成功!环境搭建完美通关!")
if __name__ == "__main__":
test_llm()
🎯 验收标准
在 Cursor 的终端里运行:
python day0_hello_deepseek.py