按输入内容分类
类型 | 描述 | 应用场景举例 | 典型模型 |
---|
自然语言处理(NLP)模型 | 处理文本数据,理解与生成自然语言 | 文本生成、翻译、摘要、问答 | GPT、BERT、LLaMA |
计算机视觉(CV)模型 | 处理图像或视频数据,识别与生成图像 | 图像分类、目标检测、分割 | ResNet、YOLO、Vision Transformer |
多模态模型 | 同时处理多种模态的数据,如文本+图像+音频等 | 视觉问答、图文生成、跨模态检索 | Flamingo、BLIP、GLM-4V |
按任务类型分类
类型 | 特点 | 功能 | 典型模型 |
---|
生成式模型 | 学习联合概率分布 P(X,Y),用于生成新数据 | 文本生成、图像生成、语音合成 | GAN、VAE、GPT 系列 |
判别式模型 | 学习条件概率分布 P(Y,X),用于分类或预测 | 分类、回归、意图识别 | BERT、ResNet、SVM |
混合模型 | 结合生成式与判别式优势,提升性能 | 半监督学习、联合训练、增强分类 | VAE + 分类器、GAN + 判别器、贝叶斯神经网络 |
技术趋势与发展路径
融合趋势
传统 CV 与 MLLM 的协同 :MLLM 在图像理解方面越来越强大,但高精度感知仍依赖传统 CV 模型。
模块化架构兴起 :未来系统可能采用“感知 + 认知 + 生成”三位一体的结构,分别由 CV 模块、MLLM 模块和生成模块组成。
轻量化 MLLM 推进边缘部署 :随着技术进步,小型化的 MLLM 将逐步进入嵌入式和实时应用领域。
局限性
对比
维度 | 生成式模型 | 判别式模型 | 混合模型 |
---|
核心目标 | 生成新数据 | 做出决策/分类 | 兼顾生成与判别 |
建模方式 | 联合概率 P(X, Y) | 条件概率 P(Y, X) | |
典型模型 | GAN、VAE、GPT | BERT、ResNet、SVM | VAE + 分类器、GAN + Discriminator、贝叶斯神经网络 |
适用任务 | 文本生成、图像生成 | 分类、情感分析、目标检测 | 半监督学习、跨模态推理、数据增强 |
优点 | 强大的生成能力 | 高准确率、泛化能力强 | 更灵活、适应性强 |
缺点 | 训练复杂、计算量大 | 不具备生成能力 | 架构复杂、调参难度大 |
总结
当前 AI 领域的大模型发展呈现出以下几个关键趋势:
从单一模态到多模态融合 :大语言模型(LLM)正在向图像、音频等模态扩展,形成统一的智能接口;
从生成或判别到混合建模 :越来越多的模型开始尝试融合生成能力和判别能力,以提升灵活性与性能;
从通用模型到行业定制化 :随着落地需求增加,模型开始向垂直领域(如医疗、金融、制造)深入;
从云端到边缘部署 :轻量化、压缩、蒸馏等技术推动模型走向终端设备。