StructBERT文本相似度模型在VMware虚拟机中的开发测试环境搭建

张开发
2026/5/26 2:49:45 15 分钟阅读
StructBERT文本相似度模型在VMware虚拟机中的开发测试环境搭建
StructBERT文本相似度模型在VMware虚拟机中的开发测试环境搭建想在自己的电脑上搭建一个StructBERT模型的开发环境但又担心搞乱本地系统或者影响其他项目用虚拟机是个不错的选择。它就像在你的电脑里再开一个完全独立的“小电脑”所有操作都在这个沙盒里进行安全又方便。今天我就带你一步步在VMware虚拟机里从零开始搭建一个专为StructBERT文本相似度模型准备的Linux开发测试环境。整个过程不复杂跟着做就行即使你之前没怎么用过Linux也能搞定。1. 准备工作你需要什么在开始动手之前我们先看看需要准备哪些东西。放心大部分都是免费的。首先你需要一台性能还不错的电脑。因为虚拟机要占用一部分资源所以建议你的电脑至少有8GB内存处理器是i5或同等性能以上的。硬盘空间留出至少50GB会比较宽裕。软件方面你需要三样东西VMware Workstation Player这是创建和管理虚拟机的软件。它有个人免费版功能足够我们使用。去官网下载安装就行。Ubuntu Linux 系统镜像我们将在这个Linux系统里做开发。推荐使用Ubuntu 22.04 LTS版本因为它长期支持社区资源丰富遇到问题好解决。去Ubuntu官网下载ISO镜像文件。一个文本编辑器在虚拟机里写代码用。我推荐VS Code它轻量且功能强大对Python支持很好。准备好这些我们就可以开始了。2. 创建并安装你的第一个Linux虚拟机这一步我们要在VMware里“造”出一台虚拟电脑并把Ubuntu系统装进去。2.1 创建新的虚拟机打开安装好的VMware Workstation Player点击“创建新虚拟机”。通常会弹出向导我们选择“典型”配置即可这样最省心。接下来是关键步骤安装来源选择你刚才下载的Ubuntu 22.04的ISO镜像文件。VMware会自动识别它为Linux系统。个人信息这里设置的是你未来在Ubuntu系统里的登录用户名和密码记住它们。虚拟机名称和位置给虚拟机起个名字比如“StructBERT_Dev”。位置选择一个你硬盘上空间充足、路径里没有中文的文件夹。磁盘容量建议分配40GB以上并选择“将虚拟磁盘拆分成多个文件”这样更方便管理。硬件配置在向导最后点击“自定义硬件”。这里我们需要调整内存分配给虚拟机至少4GB4096 MB。处理器分配2个核心。网络适配器选择“NAT模式”这样虚拟机就能通过你主机的网络上网了。配置完成后点击完成VMware就会开始创建虚拟机。2.2 安装Ubuntu系统虚拟机创建好后会自动启动并开始加载Ubuntu安装程序。界面是图形化的跟着提示走很简单选择语言点击“安装Ubuntu”。键盘布局选择“英语美国”或“汉语”都可以。安装类型就选默认的“正常安装”可以勾选“安装Ubuntu时下载更新”这样装完系统就是最新的。磁盘分区这里因为我们用的是整个虚拟磁盘所以直接选择“清除整个磁盘并安装Ubuntu”然后点“现在安装”。设置时区地图上点选“上海”。最后确认一下你的用户名和密码点击“继续”系统就会自动安装了。这个过程大概需要15-30分钟泡杯茶休息一下。安装完成后重启虚拟机你就进入全新的Ubuntu桌面环境了。3. 配置基础的开发环境系统装好了但还是个“毛坯房”。我们现在要把它装修成适合开发的“精装房”。3.1 第一件事更新系统打开虚拟机里的“终端”快捷键CtrlAltT这是我们在Linux下工作的主要窗口。输入以下命令更新系统软件包列表并升级所有已安装的包sudo apt update sudo apt upgrade -y输入密码后系统会开始更新。这能确保我们接下来的安装都在最新的基础上进行。3.2 安装Python和必备工具StructBERT模型通常用Python来开发和测试所以Python环境是核心。Ubuntu 22.04默认可能已经安装了Python 3.10。我们确认一下并安装一些必要的编译工具和包管理器# 安装Python3开发包、pip包管理器和一些构建工具 sudo apt install python3-pip python3-dev build-essential -y # 安装venv模块用于创建虚拟环境 sudo apt install python3-venv -y # 验证安装 python3 --version pip3 --version3.3 安装并配置VS Code虽然终端很强大但有个好用的代码编辑器会更舒服。我们安装VS Code。回到终端依次执行以下命令来添加微软的软件源并安装VS Code# 安装依赖以通过HTTPS获取软件包 sudo apt install software-properties-common apt-transport-https wget -y # 导入微软GPG密钥 wget -qO- https://packages.microsoft.com/keys/microsoft.asc | gpg --dearmor packages.microsoft.gpg sudo install -o root -g root -m 644 packages.microsoft.gpg /etc/apt/trusted.gpg.d/ # 添加VS Code软件源 sudo sh -c echo deb [archamd64 signed-by/etc/apt/trusted.gpg.d/packages.microsoft.gpg] https://packages.microsoft.com/repos/vscode stable main /etc/apt/sources.list.d/vscode.list # 更新并安装VS Code sudo apt update sudo apt install code -y安装完成后你可以在应用程序菜单里找到VS Code。打开它我建议安装几个必用的扩展让开发更顺手Python(由Microsoft发布)提供Python语言支持、调试、智能提示等。Chinese (Simplified) Language Pack如果需要中文界面的话。GitLens更好地查看代码历史。直接在VS Code的扩展市场里搜索安装即可。4. 搭建StructBERT模型专属环境基础打好了现在来准备模型运行的具体环境。为了避免不同项目的包互相冲突我们使用Python虚拟环境。4.1 创建并激活虚拟环境在你的用户目录比如/home/你的用户名下创建一个项目文件夹并在里面创建虚拟环境# 创建项目目录 mkdir ~/structbert_project cd ~/structbert_project # 创建名为‘venv’的Python虚拟环境 python3 -m venv venv # 激活虚拟环境 source venv/bin/activate激活后你会发现终端命令行的前面多了一个(venv)标记这表示你现在已经在这个独立的Python环境里了。接下来所有pip安装的包都只会装在这里面。4.2 安装PyTorch和TransformersStructBERT是基于Transformer架构的模型我们通常使用Hugging Face的transformers库来调用它而它依赖于PyTorch或TensorFlow。这里我们以PyTorch为例。先去 PyTorch官网 查看安装命令。因为我们没有GPU所以选择CPU版本。对于Ubuntu系统命令通常如下pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu安装完PyTorch再安装Hugging Face的核心库和数据集库pip3 install transformers datasets4.3 验证环境并运行一个简单示例环境装好了写个简单的脚本来测试一下确保一切正常。在VS Code里在你的项目文件夹下新建一个Python文件比如叫test_structbert.py输入以下代码from transformers import AutoTokenizer, AutoModel import torch import torch.nn.functional as F # 加载StructBERT的tokenizer和模型这里以中文版本为例 model_name alibaba-pai/structbert-base-zh tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModel.from_pretrained(model_name) # 准备两个句子 sentences [今天天气真好我们出去散步吧。, 阳光明媚适合外出走走。] # 对句子进行编码 inputs tokenizer(sentences, paddingTrue, truncationTrue, return_tensorspt) # 获取模型输出 with torch.no_grad(): outputs model(**inputs) # 取[CLS]位置的输出作为句子表示 sentence_embeddings outputs.last_hidden_state[:, 0, :] # 计算两个句子向量的余弦相似度 cos_sim F.cosine_similarity(sentence_embeddings[0], sentence_embeddings[1], dim0) print(f句子1: {sentences[0]}) print(f句子2: {sentences[1]}) print(f它们的余弦相似度是: {cos_sim.item():.4f})保存文件然后在终端确保虚拟环境venv是激活状态运行它python test_structbert.py如果一切顺利你会看到终端输出两个句子的相似度分数。第一次运行会下载模型文件需要一点时间。看到成功输出相似度恭喜你核心开发环境已经搭建成功了5. 一些实用的进阶配置与建议环境跑通了为了让后续开发更顺畅这里还有几个小建议。关于网络如果模型下载很慢可以考虑在虚拟机里配置网络代理或者使用国内的镜像源。对于pip可以临时使用-i参数指定镜像例如pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package。关于数据你可以在虚拟机里直接下载数据集也可以从主机共享文件夹。VMware Tools提供了文件夹共享功能在VMware Player的虚拟机设置里可以启用这样就能方便地在主机和虚拟机之间交换文件了。关于快照这是虚拟机的“后悔药”。在VMware里你可以在环境配置好的关键时刻比如刚装完系统、刚配好Python环境创建一个“快照”。以后万一环境被玩坏了一键就能恢复到创建快照时的完美状态非常省心。关于性能如果你的开发任务较重感觉虚拟机有点卡可以回到虚拟机设置里适当增加分配的内存和CPU核心数。当然前提是你的主机硬件足够强大。整个流程走下来你可能觉得步骤不少但大部分都是按部就班的操作。在虚拟机里搭建环境最大的好处就是干净、隔离你可以大胆尝试各种安装和配置而不用担心影响你电脑上其他工作。这个为StructBERT准备的Linux环境同样也适合其他基于PyTorch和Transformers的NLP模型开发。接下来你就可以在这个沙盒里安心地进行你的模型调试、实验和测试了。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章