lynx
Published on 2025-05-06 / 15 Visits
0
0

AI 大模型分类概览

按输入内容分类

类型

描述

应用场景举例

典型模型

自然语言处理(NLP)模型

处理文本数据,理解与生成自然语言

文本生成、翻译、摘要、问答

GPT、BERT、LLaMA

计算机视觉(CV)模型

处理图像或视频数据,识别与生成图像

图像分类、目标检测、分割

ResNet、YOLO、Vision Transformer

多模态模型

同时处理多种模态的数据,如文本+图像+音频等

视觉问答、图文生成、跨模态检索

Flamingo、BLIP、GLM-4V

按任务类型分类

类型

特点

功能

典型模型

生成式模型

学习联合概率分布 P(X,Y),用于生成新数据

文本生成、图像生成、语音合成

GAN、VAE、GPT 系列

判别式模型

学习条件概率分布 P(Y,X),用于分类或预测

分类、回归、意图识别

BERT、ResNet、SVM

混合模型

结合生成式与判别式优势,提升性能

半监督学习、联合训练、增强分类

VAE + 分类器、GAN + 判别器、贝叶斯神经网络

技术趋势与发展路径

融合趋势

  • 传统 CV 与 MLLM 的协同 :MLLM 在图像理解方面越来越强大,但高精度感知仍依赖传统 CV 模型。

  • 模块化架构兴起 :未来系统可能采用“感知 + 认知 + 生成”三位一体的结构,分别由 CV 模块、MLLM 模块和生成模块组成。

  • 轻量化 MLLM 推进边缘部署 :随着技术进步,小型化的 MLLM 将逐步进入嵌入式和实时应用领域。

局限性

  • MLLM 目前在精度、速度、资源消耗等方面仍无法完全替代传统 CV 模型。

  • 专业领域的深度建模(如医学图像分析)仍是传统方法的优势领域。

对比

维度

生成式模型

判别式模型

混合模型

核心目标

生成新数据

做出决策/分类

兼顾生成与判别

建模方式

联合概率 P(X, Y)

条件概率 P(Y, X)

典型模型

GAN、VAE、GPT

BERT、ResNet、SVM

VAE + 分类器、GAN + Discriminator、贝叶斯神经网络

适用任务

文本生成、图像生成

分类、情感分析、目标检测

半监督学习、跨模态推理、数据增强

优点

强大的生成能力

高准确率、泛化能力强

更灵活、适应性强

缺点

训练复杂、计算量大

不具备生成能力

架构复杂、调参难度大

总结

当前 AI 领域的大模型发展呈现出以下几个关键趋势:

  1. 从单一模态到多模态融合 :大语言模型(LLM)正在向图像、音频等模态扩展,形成统一的智能接口;

  2. 从生成或判别到混合建模 :越来越多的模型开始尝试融合生成能力和判别能力,以提升灵活性与性能;

  3. 从通用模型到行业定制化 :随着落地需求增加,模型开始向垂直领域(如医疗、金融、制造)深入;

  4. 从云端到边缘部署 :轻量化、压缩、蒸馏等技术推动模型走向终端设备。


Comment