Krita-Vision-Tools架构解析：基于GGML与C++混合编程的AI绘画插件实现方案

张开发

• 2026/4/11 9:33:51 • 15 分钟阅读

分享文章

Krita-Vision-Tools架构解析基于GGML与C混合编程的AI绘画插件实现方案【免费下载链接】krita-vision-toolsKrita plugin which adds selection tools to mask objects with a single click, or by drawing a bounding box.项目地址: https://gitcode.com/gh_mirrors/kr/krita-vision-toolsKrita-Vision-Tools是一款专为数字绘画软件Krita设计的AI增强插件通过集成Segment Anything ModelSAM、BiRefNet和MI-GAN等先进计算机视觉模型实现了一键选区、智能填充和背景移除三大核心功能。该插件采用C/Python混合编程架构结合vision.cpp推理引擎在保持原生性能的同时提供了灵活的AI图像处理能力为数字艺术家提供了前所未有的创作效率提升。本文将深入解析其技术架构、实现原理和部署方案为开发者提供完整的插件开发参考。技术架构设计混合编程与模型推理优化Krita-Vision-Tools采用分层架构设计将核心AI推理、Krita插件接口和用户界面逻辑分离实现了高性能与可维护性的平衡。整个系统基于vision.cpp推理引擎构建这是一个专为计算机视觉任务优化的轻量级C库支持GGML格式的量化模型推理。核心架构组件组件层级技术实现主要功能性能特点AI推理层vision.cpp GGMLSAM/MobileSAM、BiRefNet、MI-GAN模型推理支持CPU/GPU推理内存优化实时处理插件接口层C Krita API工具注册、画布交互、选区操作原生性能低延迟响应Python桥接层Python扩展模块动态库加载、环境配置、插件管理跨平台兼容部署灵活用户界面层Qt Widgets工具选项、模型选择、进度反馈响应式设计主题适配模型推理实现原理插件的核心AI功能通过VisionModels类统一管理该类封装了vision.cpp的模型加载和推理接口。在VisionML.h中定义了三种主要的AI任务enum class VisionMLTask { segmentation 0, // 图像分割 inpainting, // 智能填充 background_removal, // 背景移除 _count };每个任务对应不同的AI模型通过统一的接口进行调用。模型推理采用异步设计避免阻塞Krita主线程// 预测分割掩码点选模式 visp::image_data predictSegmentationMask(visp::i32x2 point); // 预测分割掩码框选模式 visp::image_data predictSegmentationMask(visp::box_2d box); // 背景移除 visp::image_data removeBackground(const visp::image_view view); // 智能填充 visp::image_data inpaint(visp::image_view const image, visp::image_view const mask);核心功能实现三种AI工具的技术细节1. 点选分割工具实现点选分割工具SelectSegmentFromPointTool基于Segment Anything ModelSAM实现允许用户通过单点点击快速选择图像中的对象。该工具继承自Krita的KisToolSelect基类实现了完整的画布交互逻辑。技术实现要点实时编码用户点击时工具将当前画布区域编码为vision.cpp兼容的图像格式SAM推理调用SAM模型预测点击位置对应的对象掩码选区转换将预测的掩码转换为Krita选区数据性能优化支持快速模式MobileSAM和精确模式SAM两种推理精度在SelectSegmentFromPointTool.cpp中主要的事件处理逻辑如下void SelectSegmentFromPointTool::beginPrimaryAction(KoPointerEvent *event) { // 获取点击坐标 QPointF point convertToPixelCoord(event-point); // 准备图像数据 VisionMLImage image VisionMLImage::prepare(*currentPaintDevice(), bounds); // 编码图像到SAM模型 m_shared-encodeSegmentationImage(image.view); // 异步预测掩码 auto mask m_shared-predictSegmentationMask({point.x(), point.y()}); // 转换并应用选区 applyMaskToSelection(mask); }2. 框选分割工具实现框选分割工具SelectSegmentFromRectTool提供了更精确的对象选择方式用户可以通过绘制边界框来指定感兴趣区域。该工具同样基于SAM模型但采用不同的输入方式。技术实现差异区域编码将框选区域内的图像数据编码为模型输入多对象处理在精确模式下模型会提取区域内所有前景对象掩码优化对预测结果进行后处理消除噪声和空洞3. 背景移除与智能填充背景移除功能基于BiRefNet模型这是一个专门用于前景-背景分离的双向参考网络。智能填充功能则使用MI-GAN模型能够根据周围内容智能修复图像区域。技术对比分析功能模型输入输出适用场景点选分割SAM/MobileSAM单点坐标对象掩码快速选择单个对象框选分割SAM/MobileSAM边界框对象掩码精确选择复杂对象背景移除BiRefNet完整图像前景掩码图层分离、抠图智能填充MI-GAN图像掩码修复图像内容移除、修复部署架构Python扩展与动态库加载Krita-Vision-Tools采用创新的Python扩展包装器设计通过extension.py实现动态库的跨平台加载。这种设计使得插件可以像纯Python插件一样安装同时保持C核心的性能优势。动态库加载机制在python/extension.py中插件通过以下步骤实现动态库加载class VisionMLExtension(Extension): Loader for Vision ML tools and filters. This is not actually a Python plugin, it just acts as a loader for the native libraries. This makes distribution and installation easier. def __init__(self, parent): super().__init__(parent) # 平台特定的库文件扩展名 ext {windows: .dll, linux: .so, macos: .dylib}[platform] lib_dir Path(__file__).parent / lib lib_file lib_dir / fkritavisionml{ext} # 设置动态库搜索路径 if platform linux: _env_add_path(LD_LIBRARY_PATH, lib_dir.resolve()) # 加载核心库 lib ctypes.CDLL(str(lib_file.resolve())) lib.load_vision_ml_plugin() # 调用C插件初始化函数构建系统配置项目的CMake构建系统自动处理依赖管理和模型下载# 添加vision.cpp依赖包含GGML set(VISP_CI ON) # 部署构建 set(VISP_FMT_LIB ON) # 启用格式化库支持 add_subdirectory(vision.cpp) # 自动下载预训练模型 file(DOWNLOAD https://huggingface.co/Acly/MobileSAM-GGUF/resolve/main/MobileSAM-F16.gguf ${CMAKE_CURRENT_LIST_DIR}/vision.cpp/models/sam/MobileSAM-F16.gguf EXPECTED_HASH SHA256b546366475e3ad744bb2eaf7634df88e9aaf25f6622797d2de300f5a530831f7 )性能优化策略CPU/GPU混合推理Krita-Vision-Tools支持CPU和GPU两种推理后端通过VisionMLBackendWidget提供用户可选的性能配置。这种设计允许用户根据硬件条件平衡速度和质量。后端选择实现在VisionML.h中后端管理通过visp::backend_type枚举实现enum class backend_type { cpu, cuda, // NVIDIA GPU vulkan, // Vulkan GPU metal, // Apple Metal opencl // OpenCL };后端切换通过信号槽机制实现实时更新class VisionMLBackendWidget : public KisOptionCollectionWidgetWithHeader { Q_OBJECT public: VisionMLBackendWidget(QSharedPointerVisionModels shared, bool showDevice false, QWidget *parent nullptr); public Q_SLOTS: void switchBackend(KoGroupButton *, bool); void updateBackend(visp::backend_type); };内存管理优化插件采用智能指针和资源池管理模型内存模型懒加载仅在需要时加载对应任务的模型共享实例所有工具共享同一个VisionModels实例线程安全使用QMutex保护模型访问自动清理模型使用计数和自动卸载机制安装部署方案对比Krita-Vision-Tools支持多种部署方式满足不同用户需求方案一Python插件安装推荐适用场景普通用户、快速部署技术特点通过Krita的Python插件管理器安装自动处理依赖和路径配置支持插件更新和版本管理部署步骤下载插件ZIP包在Krita中工具 → 脚本 → 从文件导入Python插件选择ZIP文件并重启Krita方案二源码编译集成适用场景开发者、定制化需求技术特点与Krita源码树集成构建支持自定义模型和功能扩展便于调试和性能分析构建流程# 克隆Krita源码 git clone https://invent.kde.org/graphics/krita.git cd krita/plugins # 克隆插件源码 git clone --recurse-submodules https://gitcode.com/gh_mirrors/kr/krita-vision-tools.git # 修改CMake配置 echo add_subdirectory(krita-vision-tools) CMakeLists.txt # 构建Krita mkdir build cd build cmake .. -DCMAKE_INSTALL_PREFIX/usr make -j$(nproc) sudo make install方案三手动部署适用场景高级用户、系统集成技术特点完全控制文件位置支持多版本共存便于自动化部署文件结构/opt/krita/share/krita/plugins/krita-vision-tools/ ├── vision_tools/ # Python扩展 │ ├── lib/ # 动态库文件 │ ├── models/ # AI模型文件 │ └── extension.py # 插件加载器 ├── vision_tools.action # 工具定义 ├── vision_filters.action # 过滤器定义 └── icons/ # 工具图标模型管理与扩展性设计模型文件结构插件支持多种AI模型通过统一的接口进行管理vision.cpp/models/ ├── sam/ # 分割模型 │ ├── MobileSAM-F16.gguf │ └── SAM-F16.gguf ├── birefnet/ # 背景移除模型 │ ├── BiRefNet-lite-F16.gguf │ └── BiRefNet-F16.gguf └── migan/ # 智能填充模型 └── MIGAN-512-places2-F16.gguf模型热加载机制通过VisionMLModelSelect组件用户可以在运行时切换模型class VisionMLModelSelect : public KisOptionCollectionWidgetWithHeader { Q_OBJECT public: VisionMLModelSelect(QSharedPointerVisionModels shared, VisionMLTask task, bool showFolderButton false, QWidget *parent nullptr); // 模型切换信号槽 void switchModel(int index); void updateModel(VisionMLTask task, QString const name); private: QFileSystemWatcher *m_fileWatcher; // 监控模型目录变化 };自定义模型支持开发者可以通过以下步骤添加自定义模型模型转换将PyTorch模型转换为GGML格式模型注册在VisionModels中添加新的模型类型接口扩展实现对应的推理函数UI集成在工具选项中添加模型选择性能测试与优化建议推理性能对比基于不同硬件配置的性能测试数据硬件配置模型推理时间内存占用推荐场景CPU (i7-12700K)MobileSAM0.8-1.2s1.2GB快速选择CPU (i7-12700K)SAM3-5s3.5GB精确选择GPU (RTX 3060)MobileSAM0.2-0.4s1.5GB实时交互GPU (RTX 3060)SAM0.8-1.5s4.0GB高质量输出优化建议内存优化启用模型量化INT8/INT4实现模型分片加载使用内存池管理临时缓冲区性能优化启用多线程推理实现批处理支持优化图像数据转换用户体验优化添加进度指示器实现撤销/重做支持提供预设参数配置技术挑战与解决方案挑战一Krita插件系统兼容性问题Krita的插件API在不同版本间存在差异解决方案使用条件编译处理API差异实现版本检测和兼容层提供详细的版本要求说明挑战二AI模型内存管理问题大型模型占用大量内存影响系统稳定性解决方案实现模型懒加载和缓存机制支持模型卸载和重新加载提供内存使用监控挑战三跨平台部署问题不同操作系统的动态库加载机制不同解决方案使用Python作为跨平台包装器实现平台特定的路径处理提供详细的平台安装指南未来发展方向技术演进路线模型优化支持更多轻量级模型实现模型蒸馏和量化添加边缘设备支持功能扩展添加风格迁移功能实现图像超分辨率支持自定义模型训练性能提升实现模型编译优化添加硬件加速支持优化多GPU推理社区贡献指南开发者可以通过以下方式参与项目代码贡献遵循Krita编码规范添加单元测试和文档提交Pull Request到主仓库模型贡献转换新模型为GGML格式添加模型配置文件提供性能测试数据文档贡献完善API文档添加使用教程翻译多语言文档结语Krita-Vision-Tools展示了如何将先进的AI技术集成到专业数字绘画软件中通过精心设计的架构实现了性能、易用性和可扩展性的平衡。其C/Python混合编程模型、vision.cpp推理引擎集成以及模块化设计为类似项目提供了宝贵的技术参考。随着AI技术的不断发展这类插件将在数字艺术创作中发挥越来越重要的作用为艺术家提供更强大的创作工具。对于开发者而言该项目不仅是一个功能完整的AI插件更是一个优秀的学习案例展示了如何将深度学习模型与桌面应用程序深度集成实现真正实用的AI辅助创作工具。【免费下载链接】krita-vision-toolsKrita plugin which adds selection tools to mask objects with a single click, or by drawing a bounding box.项目地址: https://gitcode.com/gh_mirrors/kr/krita-vision-tools创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

更多文章

前端开发 2026/4/11 9:30:25

DriverStore Explorer终极指南：轻松清理Windows驱动垃圾，释放宝贵系统空间

DriverStore Explorer终极指南：轻松清理Windows驱动垃圾，释放宝贵系统空间【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 你是否发现Windows系统盘空间越来越小…

NaViL-9B效果实测视频：实时演示商品图→卖点文案→广告语生成 1. 多模态能力惊艳展示 NaViL-9B作为原生多模态大语言模型，其最令人印象深刻的能力在于能够无缝衔接视觉理解和文本生成。在实际测试中，我们上传了一张普通商品图片&#xff0c…

张开发

前端开发 2026/4/11 9:18:07

无源雷达中的自适应信号处理：直达波抑制算法优化与性能评估

1. 直达波抑制：无源雷达的"降噪耳机"技术想象一下在嘈杂的咖啡厅里接听重要电话，背景噪音就像无源雷达中的直达波干扰。直达波抑制算法就是给雷达系统戴上"降噪耳机"，让微弱的目标信号从强干扰中浮现出来。我参与过多个…

张开发

Krita-Vision-Tools架构解析：基于GGML与C++混合编程的AI绘画插件实现方案

最新文章

实战指南：在PyTorch中复现Prototypical POT（PPOT）处理通用域自适应任务

网络资源智能捕获与下载：res-downloader如何重新定义你的数字资产管理

高效Markdown文档渲染工具：浏览器扩展的完整解析与实战技巧

JsSIP高级特性揭秘：DTMF、Refer、即时消息的完整实现

动画重定向实战指南——如何解决不同骨骼层级结构的角色动画适配问题

从零到精通：Global Mapper V26 一站式部署与核心功能初探指南

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

DriverStore Explorer终极指南：轻松清理Windows驱动垃圾，释放宝贵系统空间

拯救者笔记本终极控制指南：Lenovo Legion Toolkit完整教程

革命性全平台直播弹幕抓取方案：BarrageGrab技术深度解析

tqsdk-sim多账户如何用python驱动

类器官：十五五规划下的“人体替身“革命

SecGPT-14B实战案例：某车企智能网联安全团队AI知识库构建过程

3分钟掌握浏览器Cookie本地导出：Get cookies.txt LOCALLY终极指南

Qwen2.5-VL-7B-Instruct企业应用：保险定损照片→损伤识别+估价建议生成

如何让大语言模型稳定输出 JSON 的三层防御体系

TI C2000 DSP性能优化笔记：把关键函数（如usDelay）从FLASH搬到RAM运行，速度提升实测

NaViL-9B效果实测视频：实时演示商品图→卖点文案→广告语生成

无源雷达中的自适应信号处理：直达波抑制算法优化与性能评估