更新记录

1.0.0(2026-06-19)

初始上传


平台兼容性

uni-app(5.07)

Vue2 Vue2插件版本 Vue3 Vue3插件版本 Chrome Safari app-vue app-nvue Android Android插件版本 iOS 鸿蒙
1.0.0 1.0.0 - - - - 8.0 1.0.0 × -
微信小程序 支付宝小程序 抖音小程序 百度小程序 快手小程序 京东小程序 鸿蒙元服务 QQ小程序 飞书小程序 小红书小程序 快应用-华为 快应用-联盟
- - - - - - - - - - - -

uni-app x(5.07)

Chrome Safari Android iOS 鸿蒙 微信小程序
- - - - - -

changbi-ai 离线 AI 推理插件

适用于 UniApp (UTS) 的离线 AI 推理插件,仅支持 Android 平台。

版本: v1.0.0 | 平台: Android ✅ iOS ❌ | 许可: MIT


技术栈

层级 技术
推理引擎 llmedge 0.3.9(封装 llama.cpp)via Maven Central
模型格式 GGUF Q4_K_M 量化
默认模型 DeepSeek-R1-Distill-Qwen-1.5B Q4_K_M (~900MB)
下载源 ModelScope 魔搭(国内直连)
最低安卓 API 26 (Android 8.0)
推荐内存 6GB+ RAM

快速开始

import { downloadModel, loadModel, generate, on } from '@/uni_modules/changbi-ai'

// 1. 注册事件
on('download_progress', (data) => {
  console.log(`下载进度: ${data.progress}%`)
})
on('load_complete', () => {
  console.log('模型就绪,开始对话')
})
on('generate_token', (data) => {
  process.stdout.write(data.token) // 流式输出
})
on('generate_complete', (data) => {
  console.log(`完成,速度: ${data.tokensPerSec} tokens/s`)
})

// 2. 下载模型(首次使用)
await downloadModel()  // 默认从 ModelScope 下载

// 3. 加载模型
await loadModel()

// 4. 推理
await generate({ prompt: '你好,请介绍一下自己' })

API

下载管理

函数 说明
downloadModel(options?) 下载模型,可传自定义 URL
cancelDownload() 取消下载

模型管理

函数 说明
loadModel() 加载模型到内存
unloadModel() 从内存卸载(释放内存)
deleteModel() 删除本地模型文件

推理

函数 说明
generate(options) 发起推理,流式返回 token
stopGenerate() 停止当前推理
resetSession() 重置会话(清空 KV cache)

信息查询

函数 说明
getModelInfo() 获取模型状态信息
getDeviceInfo() 获取设备内存、CPU 信息

事件

on(event, callback)
off(event, callback?)
事件 触发时机 主要数据
download_progress 下载进度更新(每秒) progress, downloadedMB, totalMB, speedMBps
download_complete 下载完成 filePath, fileSizeMB
download_error 下载失败 error, code
load_complete 模型加载成功 memUsageMB, loadTimeMs
load_error 模型加载失败 error
unload_complete 模型卸载完成
generate_token 流式推理 token token
generate_complete 推理完成 fullText, tokensPerSec, totalMs
generate_error 推理失败 error
generate_stop 用户手动停止

generate 选项

generate({
  prompt: string,          // 必填:用户输入
  maxTokens?: number,      // 最大生成 token 数,默认 512
  temperature?: number,    // 温度,默认 0.7
  topP?: number,           // top_p,默认 0.9
  systemPrompt?: string,   // 系统提示词
})

DeepSeek-R1 思考链

DeepSeek-R1 会在回复前生成 <think>...</think> 思考过程。 聊天页面已自动解析并提供折叠展示。


注意事项

  1. 首次使用需下载约 900MB 模型,建议 WiFi 环境
  2. 模型保存在 App 私有目录,不需要存储权限(Android 10+)
  3. 推理过程中请勿关闭前台服务通知(Android 13+ 需授权通知权限)
  4. 6GB RAM 以下设备可能出现 OOM,建议测试后使用
  5. 仅支持 ARM64 (arm64-v8a) 架构设备

隐私、权限声明

1. 本插件需要申请的系统权限列表:

android.permission.INTERNET(下载模型),android.permission.FOREGROUND_SERVICE(后台加载保活)

2. 本插件采集的数据、发送的服务器地址、以及数据用途说明:

插件不采集任何数据,所有推理完全离线

3. 本插件是否包含广告,如包含需详细说明广告表达方式、展示频率:

暂无用户评论。