🌌 AI 宇宙全景图 · 全球开源AI技术完全指南

🧠

大语言模型 · Large Language Models

可以理解和生成人类语言的AI模型，就像一个知识渊博的助手，能聊天、写作、分析、编程。这是AI里最基础、应用最广的技术。
👶 小白理解：就是ChatGPT那种AI，但这里列的都是完全免费、可以自己部署的版本。

💡

小白怎么用大语言模型？

最简单：下载 Ollama 或 LM Studio（免费软件），一键安装这些模型到你的电脑上，然后就能像用ChatGPT一样跟它聊天，完全免费，数据不上传云端。

DeepSeek V3.2

DeepSeek · 中国

2026最新🔥 全球顶级

💡 通俗解释

中国团队造出来的超级AI大脑，最新版本推理能力直追甚至超越GPT-5，而且完全免费开源。就像免费版的天才助手，什么问题都能回答。

基于混合专家架构(MoE)，采用DeepSeek稀疏注意力(DSA)机制显著降低长文本计算量，通过强化学习训练提升推理能力至GPT-5级别。

复杂推理数学证明代码生成学术研究智能客服策略分析

开源可商用免费MoE架构中文优化

671B MoE→ 获取模型

DeepSeek R1

DeepSeek · 中国

🔥 推理之王

💡 通俗解释

特别擅长"想清楚再说"的AI。遇到难题会一步一步推理，像解数学题一样，把思路全展示出来。2025年初震撼全球AI圈。

专为推理任务优化，通过思维链(Chain-of-Thought)训练使模型在回答前进行深度推理。在数学、逻辑、科学等基准测试上媲美甚至超过GPT-4o。

数学推理逻辑分析科研辅助复杂决策法律分析

开源可商用免费推理增强

671B (MoE)→ 获取模型

Qwen3 系列

阿里巴巴

2025最新中文最强

💡 通俗解释

阿里巴巴做的AI，特别懂中文，从0.5B的超小版到235B的巨无霸都有。支持读懂整本书（百万字上下文），是目前最好的中文开源AI。

阿里通义千问最新系列，全系开源，支持1M Token超长上下文，在中文理解、代码生成、数学推理上均达到全球顶尖水平。模型从0.5B到235B覆盖各种设备需求。

中文写作长文档分析多语言翻译教育辅导企业应用代码生成

开源可商用免费中文优化全尺寸

0.5B ~ 235B→ 获取模型

Llama 4

Meta · 美国

2025最新🌍 全球最广

💡 通俗解释

Meta（Facebook母公司）发布的AI，全球使用最广泛的开源AI之一。性能极强，商业可用，几乎所有本地AI工具都支持它。

Meta Llama 4采用多模态架构，Scout和Maverick变体支持128K上下文，在通用对话、代码、推理方面均表现优异。社区生态最为庞大，有数万个微调版本可用。

通用对话写作助手代码辅助知识问答文本摘要

开源免费生态最大多模态

8B / 70B / 400B+→ 获取模型

Gemma 3

Google

2025最新手机可跑

💡 通俗解释

谷歌做的轻量级AI，特点是小而精。最小版本在手机上也能流畅运行，支持看图+文字，是手机端AI的首选。

Google Gemma 3针对端侧部署优化，1B到27B多个尺寸，支持图文多模态输入，在同规格中性能领先，特别适合资源受限的设备部署。

手机端AI边缘计算个人助手图文问答隐私保护

开源可商用免费轻量高效

1B / 4B / 12B / 27B→ 获取模型

GLM-4.7 / GLM-5

智谱AI · 清华大学

2026最新🔥 代码Agent第一

💡 通俗解释

清华大学和智谱AI联合研发，最新版在"自主写代码"这个任务上超越了Claude Sonnet，特别适合用来做AI程序员助手。

GLM-4.7专为代码Agent任务优化，在编程Agent基准测试上登顶，支持交织思维、工具调用，UI生成和代码推理均达SOTA水平。GLM-5为最强综合版本。

代码AgentUI生成工具调用长推理中英双语

开源免费Agent专项

9B / 32B / 130B→ 获取模型

Phi-4 / Phi-4-mini

Microsoft

2025新小模型强

💡 通俗解释

微软研究院做的"小而强"AI。14B的版本打败了很多更大的模型，特别擅长数学和理科题。笔记本电脑就能流畅运行。

采用高质量合成数据训练，在STEM（科学、技术、工程、数学）领域的表现远超同参数量模型。Phi-4-mini为3.8B轻量版，适合移动端部署。

STEM教育数学辅导笔记本部署快速推理

MIT开源免费小模型强

3.8B / 14B→ 获取模型

Mistral / Mixtral

Mistral AI · 法国

欧洲开源

💡 通俗解释

欧洲最强AI公司的开源模型，像"多个专家团队"协作的AI（MoE架构），以小体积实现大性能，完全可商用。

采用混合专家(MoE)架构，Mixtral 8x22B激活22B参数但总规模达141B，提供极高性价比。Apache 2.0协议，完全可商用，无任何限制。

API服务企业私有化多语言任务快速对话

Apache 2.0商用免费MoE架构

7B / 8x7B / 8x22B→ 获取模型

InternLM 3

上海AI实验室

科研友好

💡 通俗解释

上海人工智能实验室出品，特别擅长中文理解和"工具调用"（让AI去用计算器、搜索引擎等），科研和政务应用广泛。

书生大模型系列，在AgentBench等Agent评测榜单位列前茅，支持函数调用、代码解释器等工具调用。在中文学术和政务场景有大量落地应用。

中文NLP学术研究工具调用政务应用教育AI

开源可商用免费

8B / 20B→ 获取模型

Kimi K2.5

月之暗面 · 中国

2025新🏆 开源智能第一

💡 通俗解释

月之暗面（Kimi的母公司）发布的开源旗舰模型，在最新综合智能排行榜上和GLM-5并列开源第一，超越了GPT系列。

采用MoE架构，在Artificial Analysis Intelligence Index v4.0中取得开源模型最高分，具备强大的长文本处理和工具调用能力，特别擅长需要持续推理的任务。

复杂推理长文档多轮对话工具调用研究分析

开源免费综合智能No.1

MoE 大参数→ 获取模型

🎨

图像生成 · Image Generation

输入文字描述，AI自动生成图片的技术。已达到专业设计师水准，可以生成照片级真实感图像、各种艺术风格插画、海报、产品图等。
👶 小白理解：就像有个全能画师，你说"画一只在宇宙里玩滑板的猫"，它就立刻画出来。

🎭

小白怎么用图像生成？

最简单方式：访问 Hugging Face Spaces（huggingface.co/spaces）免费在线体验；或者下载 ComfyUI（免费软件）在自己电脑上运行，无需月订阅费。

FLUX.1

Black Forest Labs

2024-25最强🔥 图像No.1

💡 通俗解释

目前公认最强的开源图像生成AI。最大优点是图片里的文字能写对！其他AI经常把文字写错，FLUX彻底解决了这个问题。画质媲美专业设计师。

12B参数的Diffusion Transformer架构，采用Flow Matching训练技术，在视觉质量、图像细节、文字渲染准确性方面全面超越DALL-E 3和Midjourney v6。

海报设计插画创作产品展示文字海报艺术创作广告图

部分开源免费可用文字渲染

12B Diffusion→ 获取模型

Stable Diffusion 3.5

Stability AI

🌟 生态最大

💡 通俗解释

AI图像生成界的"老大哥"，历史最悠久，社区最大，有上万个不同风格的"插件"（LoRA），从二次元到写实摄影什么都有，是创作者的首选工具。

基于Latent Diffusion模型进化而来，SD3.5采用Multimodal Diffusion Transformer(MMDiT)架构，支持多风格微调和ControlNet精确控制，有最庞大的开源生态系统。

游戏素材动漫创作写真生成风格定制批量生产商业插图

开源免费LoRA生态ControlNet

2B / 8B→ 获取模型

SDXL / SDXL-Turbo

Stability AI

实时生成

💡 通俗解释

升级版SD，能画1024x1024超高清大图。Turbo版最厉害：几乎实时生成图片，你打一个字它就开始画，像给AI装上了涡轮引擎。

SDXL支持1024分辨率原生生成，Turbo版采用ADD(Adversarial Diffusion Distillation)技术将生成步数从50步压缩至1-4步，实现毫秒级图像生成，适合实时交互应用。

高清壁纸实时交互风格迁移人物写真

开源免费实时生成

6.6B→ 获取模型

Kolors

快手

中文输入

💡 通俗解释

快手出品，最大特点是直接说中文就能画图，不用翻译成英文。说"画一个身穿汉服的女孩在落日中吹风"，直接生成高质量图片。

基于先进的文图生成框架，针对中文语义理解进行深度优化，使用CLIP和自研中文文本编码器，能精确理解中文文化元素，生成符合东方审美的高质量图像。

中文创作国风插画社交媒体配图日常配图

开源免费中文优化

—→ 获取模型

HunyuanDiT

腾讯

腾讯出品

💡 通俗解释

腾讯混元图像生成模型，理解中国文化特别好，能画出有东方韵味的图片。用中文提示词效果非常好，适合国风、古风创作。

采用DiT(Diffusion Transformer)架构，融合中文CLIP和多层次文本编码，针对中文语义进行专项优化，在东方美学元素的理解和生成上有显著优势。

国风创作品牌视觉电商图片文创设计

开源免费

1.5B→ 获取模型

🎬

视频生成 · Video Generation

输入文字或图片，AI自动生成视频片段。2025年是视频生成爆发的一年，开源模型质量已接近甚至超过早期商业产品。
👶 小白理解：写一句话描述，AI给你生成一段视频，免费版效果已经相当不错了。

Wan 2.2

阿里巴巴

2025最新🔥 开源视频No.1

💡 通俗解释

目前最强的开源视频生成AI，阿里巴巴出品。升级版用了"混合专家"架构，同样的算力能生成更好的视频，支持文字→视频和图片→视频，还支持中英文。

Wan 2.2采用MoE(混合专家)扩散架构，将去噪过程拆分为专业化的时间步专家，大幅提升生成效率和质量。在多项开源和商业视频基准测试中均排名第一梯队，支持720p生成。

短视频创作广告制作动画生成图转视频内容创作影视预告

开源免费MoE扩散中英支持

14B MoE→ 获取模型

HunyuanVideo 1.5

腾讯

2025.11🔥 消费级GPU可跑

💡 通俗解释

腾讯出品，最大亮点是只需要消费级显卡（RTX4090）就能运行，75秒内生成一段视频。视觉质量超越Runway Gen-3和Luma等商业产品。

8.3B参数，采用3D因果VAE将视频压缩16×（空间）和4×（时间），大幅降低内存需求。在文本对齐(68.5%)和视觉质量(96.4%)上均超越商业竞品。提供I2V、Avatar、Custom等多变体。

消费级GPU运行创意视频数字人图转视频品牌宣传

开源免费消费GPU

8.3B→ 获取模型

LTX-Video

Lightricks

实时速度

💡 通俗解释

速度最快的开源视频生成AI！可以做到"实时生成"，30fps的高清视频几乎和生成图片一样快，特别适合需要快速出结果的创作者。

DiT-based架构，生成30fps 1216×704视频速度超过实时，支持13B dev/distilled/2B distilled/FP8等多变体，ComfyUI深度集成，适合快速迭代的创作工作流。

快速原型社媒内容实时互动ComfyUI工作流

开源免费超高速

2B / 13B→ 获取模型

CogVideoX-5B

智谱AI · 清华

国产开源

💡 通俗解释

清华智谱AI出品，支持文字生成和图片生成视频两种模式，5B版本对显卡要求不高，特别适合学习和研究使用，效果扎实稳定。

5B参数，生成6秒720×480@8fps视频，bfloat16精度训练，支持226 token文字提示，通过Diffusers框架易于集成，适合教育科研和平台搭建。

故事视频教育动画产品展示创意内容

Apache 2.0免费

5B / 10B→ 获取模型

Mochi 1

Genmo

Apache 2.0

💡 通俗解释

以"动作流畅"著称的开源视频AI，生成的视频里物体移动特别自然，感觉有物理重量，不像其他AI那种"飘飘然"的效果。许可证最宽松，可完全商用。

10B非对称扩散Transformer(AsymmDiT)架构，从头训练，Apache 2.0许可证完全可商用无限制，以高保真运动效果和强提示词遵从度著称，有清晰研究路线图。

自然场景人物动作商业视频研究基础

Apache 2.0完全商用流畅动作

10B AsymmDiT→ 获取模型

SkyReels V1

社区 Fine-tune

2026社区版

💡 通俗解释

基于HunyuanVideo微调，使用1000万个影视级片段训练，专门生成真实人物视频。33种面部表情、400+动作组合，适合需要拍摄"演员"效果的创作者。

HunyuanVideo社区微调版，在1000万高质量影视片段上继续训练，专注人物中心设计，提供33种面部表情和400+动作组合，整合专业构图和镜头语言，适合叙事性内容创作。

人物视频故事叙述商业广告影视预告

开源免费电影级

13B fine-tune→ 获取模型

🎵

音频与语音 · Audio & Speech

包括语音识别（说话转文字）、语音合成（文字转说话）、声音克隆（复制任何人的声音）、AI音乐生成等技术。
👶 小白理解：让AI帮你录音转文字、有声书配音、甚至克隆你自己的声音来读文章。

Whisper Large v3

OpenAI

🌍 100+语言

💡 通俗解释

OpenAI开源的超准语音识别AI，把声音完美转成文字。支持100多种语言，中文、英文、方言都能识别，准确率比人工听写还高。是录音转文字的神器。

基于Transformer编码器-解码器架构，在68万小时多语言数据上预训练。Large v3在多语言语音识别基准上SOTA，支持自动语言检测和时间戳对齐，有Faster-Whisper等高速优化版本。

会议记录字幕生成播客转录多语言识别语言学习无障碍服务

MIT开源完全免费100+语言

Tiny~Large v3→ 获取模型

Fish Speech 2

Fish Audio

2025最新🔥 声音克隆No.1

💡 通俗解释

最强的开源AI配音师！给它10秒你的声音录音，它就能用你的声音朗读任何文字，效果几乎以假乱真。中文发音特别自然，没有机器感。

采用VQGAN音频编码器和大型语言模型文本转语音框架，零样本(Zero-shot)声音克隆只需10秒参考音频。支持情感控制、多语言合成，中文TTS效果位列开源前茅，2.0版本进一步提升自然度。

有声书配音视频配音声音克隆虚拟主播游戏角色无障碍

开源免费零样本克隆情感控制

—→ 获取模型

CosyVoice 2

阿里达摩院

2025新流式实时

💡 通俗解释

阿里达摩院出品的中文配音AI，说话最自然，还能控制情绪（高兴/难过/惊讶）。支持实时流式合成，几乎没有延迟，适合做实时播报和数字人。

基于流式生成架构，支持零样本TTS和声音克隆。情感风格可通过文字指令控制，实时流式合成延迟极低，在中文自然度评测中位列开源模型第一梯队，适合数字人和实时语音应用。

数字人播报智能客服实时语音有声读物教育配音

开源免费实时合成情感控制

—→ 获取模型

MusicGen

Meta

🔥 万物分割

💡 通俗解释

神奇的AI橡皮擦！在图片上点一下，就能把那个物体完整精准地抠出来，不管是头发丝还是复杂边缘都能处理。升级版SAM2还能跟踪视频里的物体。

Segment Anything Model 2，采用图像编码器+Prompt编码器+掩码解码器架构，实现零样本图像和视频实例分割。支持点击、框选、文字多种提示方式，可在视频帧间保持物体追踪。

图片抠图视频编辑AR应用医学图像自动驾驶内容创作

Apache 2.0完全免费零样本视频追踪

—→ 获取模型

CLIP / SigLIP

OpenAI / Google

图文匹配基础

💡 通俗解释

让AI理解"文字和图片是什么关系"的核心技术。比如它知道"一只在树上的猫"这句话和对应猫的图片是匹配的。是很多AI产品的底层基础组件。

对比学习图文对齐模型，通过4亿图文对训练实现图文嵌入空间对齐。支持零样本图像分类，是大多数图像生成、多模态理解模型的基础组件。SigLIP为Google改进版，性能更强。

以文搜图图片分类内容审核相似图检索零样本识别

MIT开源免费基础组件

多规格→ 获取模型

YOLOv10 / YOLO11

清华大学 / Ultralytics

工业首选

💡 通俗解释

超快的AI摄像头！每秒能识别画面里几十个物体，并标注出位置。手机、监控摄像头、无人机上都能实时运行，是工业界用的最多的视觉AI。

YOLO系列实时目标检测模型，YOLOv10去除NMS后处理降低延迟，YOLO11为最新改进版。在速度和精度上达到新的平衡点，mAP提升同时参数减少，适合各种边缘设备部署。

实时监控人脸识别车牌识别工厂质检无人机视觉交通分析

GPL/AGPL免费实时检测

N/S/M/L/X→ 获取模型

Grounding DINO

IDEA Research

开放词汇

💡 通俗解释

超聪明的AI找物体工具。传统AI只能找"预设的"物体，而它用文字描述就能找任何东西，甚至能找它从没见过的物体！说"找图里的绿色椅子"，它就去找。

开放词汇目标检测模型，将DINO（自监督视觉Transformer）与Grounding预训练结合，实现文本引导的零样本目标检测，无需预定义类别即可检测任意物体。

智能监控工业检测零售分析机器人视觉图像搜索

Apache 2.0免费开放词汇

—→ 获取模型

✨

多模态理解 · Multimodal

同时理解图片、视频、文字甚至音频的AI模型，是目前最前沿的方向。可以看图回答问题、理解视频内容、识别文档表格等。
👶 小白理解：拍个照或截个图，直接问AI"这是什么"、"帮我分析这份报告"。

InternVL 2.5

上海AI实验室

2025最新🔥 开源多模态No.1

💡 通俗解释

目前最强的开源看图AI，能同时看多张图片，理解Excel截图、图表、PDF等复杂文档。在全球多模态能力排行榜上稳居开源第一。

采用InternViT视觉编码器与语言模型深度融合，支持多图输入、视频理解、高分辨率图像，在MMBench、MMMU等多个多模态基准上位列开源最强。参数从1B到78B覆盖各种部署需求。

多图分析表格识别图表解读文档理解视频分析OCR

MIT开源免费多图理解视频理解

1B ~ 78B→ 获取模型

Qwen2-VL / Qwen2.5-VL

阿里巴巴

🌍 视频理解

💡 通俗解释

阿里出品的"看图看视频"AI，任意分辨率的图片都能直接输入，还支持看视频来回答问题。中文效果特别好，是国内应用最广的多模态开源模型。

任意分辨率图像编码，支持动态分辨率和视频序列输入。Qwen2.5-VL进一步增强了Agent能力（网页操作、文档处理），在OCR、图表理解、数学题视觉推理上均达SOTA。

视频分析OCR文字识别文档理解智能客服网页操作

开源免费视频理解任意分辨率

2B / 7B / 72B→ 获取模型

MiniCPM-V 2.6

面壁智能 / 清华

手机可跑端侧第一

💡 通俗解释

能在手机上运行的多模态AI！看图片、看视频都没问题，性能接近GPT-4V，却能装进手机里，是端侧AI的里程碑，完全离线使用。

8B参数多模态模型，采用自适应视觉编码压缩token，在单帧OCR和多帧视频理解上性能超越InternVL 2.0同量级版本。支持Android手机本地运行，是端侧多模态的标杆。

手机AI离线图像理解实时分析隐私保护边缘部署

Apache 2.0免费手机可跑

8B→ 获取模型

🤖

AI 智能体 · AI Agents

能自主完成复杂任务的AI系统，不只是聊天，还能自己去搜索信息、写代码、操作软件、调用工具，完成多步骤的真实工作任务。
👶 小白理解：不只是"回答问题"，而是"帮你把事情做完"——比如自动帮你搜资料、整理成报告并发邮件。

OpenHands (OpenDevin)

All-Hands-AI

2025爆火🔥 AI程序员

💡 通俗解释

完全自主的AI程序员！告诉它"帮我做一个记账网站"，它会自己写代码、自己测试、自己修Bug、完成后自动部署，全程不需要你干预。

开源AI软件工程师框架，支持代码生成、执行、浏览器操作、文件管理等工具调用，通过沙箱环境安全执行代码。支持接入多种LLM后端，是AI自主编程的标杆项目。

全自动编程项目开发Bug自动修复代码重构自动化测试

MIT开源免费自主编程

框架→ 获取框架

AutoGen

Microsoft

多AI协作

💡 通俗解释

微软出品的AI团队协作框架。让多个AI角色（程序员、测试员、经理）自动分工协作完成任务，就像一个不用薪水的AI公司为你工作。

多智能体对话框架，支持自定义Agent角色、工具调用和人机协作模式。AutoGen Studio提供可视化界面，AgentChat支持复杂多轮协作流程，广泛用于自动化研究和生产。

多AI协作自动化研究数据分析内容生产复杂决策

MIT开源免费多Agent

框架→ 获取框架

CrewAI

🔥 最易上手

💡 通俗解释

最容易上手的AI团队框架。像给公司安排员工一样，告诉每个AI它的"职位"和"任务"，它们就会自动分工合作完成复杂项目。几行代码就能搭起来。

以角色(Role)和任务(Task)为核心的多Agent框架，简洁的API设计使其成为最流行的Agent框架之一。支持工具调用、并行任务执行和流程控制，适合快速构建Agent应用。

内容生产市场研究自动报告客服系统数据收集

MIT开源免费简单易用

框架→ 获取框架

LangChain

LangChain Inc.

生态最大

💡 通俗解释

搭建AI应用的乐高积木，全球最多开发者使用的AI框架。把各种AI能力"拼接"起来，轻松做出读文件的AI助手、自动搜索的AI等各种应用。

模块化AI应用框架，提供文档加载器、向量存储、提示模板、记忆管理、工具调用等完整组件链，配套LangSmith可视化调试平台，是构建RAG和Agent应用的首选框架。

RAG知识库AI应用开发工具链接记忆管理多模型接入

MIT开源免费生态最大

框架→ 获取框架

💻

代码AI · Code AI

专门用来写代码、改Bug、解释代码的AI模型。对开发者来说可以大幅提升效率，对非开发者来说可以让你用自然语言"指挥"AI帮你写程序。
👶 小白理解：即使你不会编程，也可以用中文告诉AI你要做什么，它帮你写代码。

Qwen2.5-Coder

阿里巴巴

2025最新🔥 代码模型No.1

💡 通俗解释

目前全球最强的开源代码AI，支持92种编程语言，写代码的能力已经超越了GPT-4o！完全免费，笔记本可以跑小版本，是程序员的神器。

在5.5T Token代码数据上训练，支持92种编程语言，在HumanEval、MBPP等代码基准全面超越GPT-4o。1.5B到32B多个规格满足不同部署需求，支持代码补全、生成、修复全场景。

代码补全Bug修复代码注释单元测试代码重构API调用

Apache 2.0完全免费92种语言

1.5B ~ 32B→ 获取模型

DeepSeek-Coder V2

DeepSeek

🔥 300+语言

💡 通俗解释

DeepSeek出品的顶级代码AI，支持300多种编程语言！特别擅长算法竞赛题和复杂系统设计，是参加编程竞赛的有力武器，完全免费开源。

基于DeepSeek-V2 MoE架构特化代码方向，2360亿总参数但实际激活仅21B，在LiveCodeBench上超越GPT-4 Turbo。300+编程语言支持，填充（FIM）模式适合IDE集成。

算法实现全栈开发代码审查算法竞赛技术文档

开源可商用免费MoE高效

236B (MoE)→ 获取模型

Aider

paul-gauthier

🔥 终端AI编程

💡 通俗解释

住在终端里的AI编程搭档！在命令行告诉它你的需求，它直接修改你的代码文件，还会自动提交到Git。是程序员效率提升最明显的工具之一。

命令行AI结对编程工具，直接读写本地代码库，支持多文件编辑和自动Git提交，接入Claude/GPT/本地模型等多种后端，在SWE-bench代码修复基准上成绩领先。

结对编程代码重构功能开发Bug修复代码库理解

Apache 2.0免费Git集成

工具→ 获取工具

Continue

Continue Dev

VS Code插件

💡 通俗解释

装在VS Code编辑器里的免费AI编程助手，比GitHub Copilot更自由，可以接入本地模型保护隐私。写代码时自动补全、解释、问答，对程序员太方便了。

开源IDE扩展，支持VS Code和JetBrains，可接入任意本地/云端模型。支持Tab自动补全、内联编辑、代码对话、文档问答等功能，完全可定制，数据不离开本地。

代码自动补全代码解释错误修复文档生成本地模型

Apache 2.0免费IDE插件

插件→ 获取插件

🔧

工具与框架 · Tools & Platforms

用来运行、管理、搭建AI应用的配套工具。有了这些工具，你不需要懂编程就能在自己电脑上运行大模型，或者搭建自己专属的AI助手。
👶 小白理解：这些就是AI的"操作系统"和"应用商店"，让普通人也能轻松用起AI。

Ollama

🔥 小白首选

💡 通俗解释

让你的电脑变成AI服务器的神器！下载一个软件，然后输入一行命令，就能在自己电脑上运行Llama、Qwen等大模型。完全免费，完全离线，不担心隐私。

跨平台本地LLM运行工具，支持Mac/Windows/Linux，提供OpenAI兼容API。内置模型库支持100+模型一键下载，自动处理量化和GPU加速，是本地AI部署的首选工具。

本地AI助手离线使用隐私保护开发测试API接入

MIT开源完全免费100+模型

工具→ 下载安装

LM Studio

图形界面零代码运行

💡 通俗解释

有漂亮图形界面的AI软件，就像安装普通应用一样简单。在里面搜索模型→点击下载→打开聊天，三步就能开始和本地AI对话，完全不需要敲命令。

跨平台桌面应用，提供完整的GUI管理本地LLM，内置模型发现、下载、运行功能，支持OpenAI兼容本地服务器模式，适合零技术门槛用户部署本地AI。

本地私有AI零门槛使用隐私保护个人知识库

免费软件完全免费图形界面

桌面应用→ 下载安装

Dify

LangGenius

🔥 无代码AI应用

💡 通俗解释

不需要写代码就能做AI应用的平台！上传公司文件→配置一下→几分钟做出专属知识库AI助手。老板/HR/运营都能自己搭建，不用找工程师。

开源LLMOps平台，集RAG引擎、工作流编排、Agent构建、模型管理于一体。支持可视化Workflow设计、多模型接入、API发布，是企业AI应用快速落地的首选平台。

企业知识库AI客服工作流自动化文档助手无代码开发

开源免费自部署无代码

平台→ 获取平台

ComfyUI

comfyanonymous

🔥 图像工作流

💡 通俗解释

AI绘图的"乐高工厂"！拖拽连接各种AI功能节点，就能搭建专业的图像生成流水线。电商主图、批量生图、特效处理，都能用它做成自动流程。

基于节点图(Node Graph)的AI图像生成工作流平台，支持SD、FLUX等所有主流图像模型，拥有丰富的自定义节点生态系统，可实现从文生图、图生图到视频生成的完整工作流。

批量生图工作流自动化电商主图视觉特效插图生产

GPL-3.0完全免费节点工作流

工具→ 下载安装

vLLM

UC Berkeley

生产部署

💡 通俗解释

给大模型装上涡轮引擎的工具。让AI回答速度变得超快，同时支持很多用户同时使用。如果你要做一个AI产品给用户用，这是部署的最佳方案。

PagedAttention技术实现显存高效管理，推理吞吐量比原生实现高3-4倍，OpenAI兼容API服务，支持张量并行多GPU分布式推理，是生产环境LLM部署的事实标准。

API服务高并发推理企业部署批量处理

Apache 2.0免费高速推理

框架→ 获取框架

Hugging Face

🌍 AI界的GitHub

💡 通俗解释

全球最大的AI模型免费平台，收录了80万个开源模型，是AI界的"应用商店"。所有本文提到的模型几乎都可以在这里免费下载，还有大量可以在线体验的演示。

全球最大开源AI生态，包含80万+模型、20万+数据集，提供Spaces在线演示平台、Inference API、AutoTrain等服务。Transformers、PEFT等核心库是AI开发的基础设施。

找模型在线体验AI下载数据集托管模型学习AI

开源生态大部分免费

平台→ 访问平台

n8n

n8n.io

AI自动化

💡 通俗解释

把AI和各种软件连起来的"水管工"！可以做成：收到邮件→AI自动分析→自动回复→同步到表格，全程不用你操作。支持接入ChatGPT、本地模型等。

可视化工作流自动化平台，400+内置连接器，原生支持AI节点(LLM调用、向量数据库、RAG)，可构建结合AI和各类SaaS服务的复杂自动化流程，支持私有化部署。

办公自动化AI工作流数据同步内容自动化通知推送

部分开源自部署免费

平台→ 获取平台

🔍

AI搜索与知识库 · RAG & Vector DB

RAG(检索增强生成)让AI能基于你自己的文档来回答问题，不再只是凭记忆说话。向量数据库是让AI"记住"大量信息并快速检索的核心技术。
👶 小白理解：上传你的公司资料/书籍/笔记，让AI基于这些内容帮你答疑解惑，打造专属智能助手。

RAGFlow

InfiniFlow

🔥 企业知识库首选

💡 通俗解释

上传你公司的几百份文件，它就变成一个"什么都知道"的AI助手，还能准确理解PDF里的表格、图表、扫描件，答案精准可靠，附带原文引用。

深度文档理解RAG引擎，支持PDF/Word/Excel/PPT/扫描件，采用智能分块和布局感知解析技术，在文档理解准确性上显著优于普通RAG方案，支持多模型后端和知识图谱增强。

企业知识库文档问答合规检索研究助手客服知识库

Apache 2.0免费深度文档解析

平台→ 获取平台

Qdrant

🚀 高性能向量库

💡 通俗解释

给AI装上超强"记忆芯片"的数据库，用Rust编写所以极快。可以在十亿条数据里，毫秒内找到最相关的内容。是构建企业级AI搜索的首选。

Rust编写的高性能向量搜索引擎，支持十亿级向量毫秒级检索，提供丰富过滤和分析功能，云原生架构支持水平扩展。生产级可靠，有托管云服务和自部署两种选择。

大规模AI搜索推荐引擎相似商品异常检测人脸搜索

Apache 2.0免费自部署

数据库→ 获取平台

Chroma

开发者最爱

💡 通俗解释

最容易上手的AI记忆数据库，专门为开发者设计。几行代码就能让AI"记住"你给它的所有文档，通过意思搜索（而不是关键词）找到最相关的内容。

专为AI应用设计的嵌入式向量数据库，Python优先的简洁API，支持本地嵌入和多种向量模型，提供持久化存储和内存模式，是LangChain/LlamaIndex生态中最常用的向量库。

AI记忆语义搜索个人知识库快速原型RAG应用

Apache 2.0完全免费

数据库→ 获取平台

Milvus

Zilliz

企业级

💡 通俗解释

全球下载量最大的开源向量数据库，支持超大规模数据，大型企业和科技公司都在用。适合需要处理数十亿条数据的企业级AI搜索系统。

云原生向量数据库，支持十亿级向量毫秒级检索，提供多种向量索引(HNSW/IVF/DiskANN)，Kubernetes原生架构支持弹性扩缩容，有Attu可视化管理工具，CNCF沙箱项目。

企业AI搜索推荐系统图像搜索生物信息知识图谱

Apache 2.0免费CNCF项目

数据库→ 获取平台

🧬

科学AI · Science AI

AI在科学领域的突破性应用，包括蛋白质结构预测、天气预报、材料设计等，正在颠覆传统科研方式，将数年研究压缩到数分钟。
👶 小白理解：AI正在帮科学家更快地治疗疾病、研发新药、预测天气，改变人类未来。

AlphaFold 3

Google DeepMind

🏆 诺贝尔奖级

💡 通俗解释

改变生命科学的革命性AI。蛋白质如何折叠是生物学最大谜题之一，解决它需要几年实验，而AlphaFold几分钟就能准确预测！已帮助全球数万名科学家加速研究，相关工作荣获2024年诺贝尔化学奖。

基于扩散模型预测生物分子（蛋白质、DNA、RNA、小分子）的3D结构，通过全原子精度的结构预测，显著超越传统结构生物学方法。已预测超过2亿个蛋白质结构，推动了多个领域的突破性进展。

药物发现蛋白质工程基因研究新材料设计疾病机制

限制性开源研究免费

—→ 获取模型

GraphCast

Google DeepMind

天气预报

💡 通俗解释

AI气象学家！10天天气预报比全球最强超级计算机还准，但速度快1000倍，成本低1000倍。极端天气（台风、暴雨）的预测精度也远超传统方法。

基于图神经网络(GNN)的全球天气预报模型，在37个大气压力层×6小时分辨率上学习气象演化规律，在252项官方天气评测指标中超越ECMWF的传统数值天气预报，运行一次仅需分钟级。

天气预报灾害预警农业气候航行规划气候研究

Apache 2.0免费

—→ 获取模型

MetaGPT

DeepWisdom

AI软件公司

💡 通俗解释

把AI组织成一个完整的软件公司！有产品经理AI、架构师AI、程序员AI、测试员AI，你只说需求，整个"公司"自动规划、设计、编码，生成完整的项目代码。

将LLM组织为软件公司结构，通过标准操作程序(SOP)定义各角色职责，支持从需求分析到代码生成的完整软件开发流程，内置代码审查和测试机制，适合复杂系统的自动化开发。

项目规划架构设计代码生成技术文档自动化测试

MIT开源免费

框架→ 获取框架

📊

大语言模型快速对比

按照你的需求选择最适合的模型。

模型	机构	参数量	中文	推理能力	代码	本地可跑	许可证	最适合
DeepSeek V3.2	DeepSeek	671B MoE	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	需高端服务器	可商用	综合最强，API调用
Qwen3 235B	阿里	235B MoE	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	需服务器	可商用	中文任务最强
Kimi K2.5	月之暗面	MoE大参数	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	需服务器	开源	综合智能榜第一
Llama 4 70B	Meta	70B	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	需高端显卡	Llama许可	生态最广，应用最多
Gemma 3 27B	Google	27B	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	消费级显卡	可商用	多模态，消费级
Phi-4 14B	Microsoft	14B	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	笔记本可跑	MIT	数理教育，笔记本
Qwen3 7B	阿里	7B	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	✅ 8GB显卡	可商用	本地中文助手最佳
Gemma 3 4B	Google	4B	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	✅ 手机可跑	可商用	手机、低内存设备
Mistral 7B	Mistral AI	7B	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	✅ 8GB显卡	Apache 2.0	最宽松商用许可

📖

不同人群怎么上手AI

根据你的背景选择最合适的入门路径，每一步都有免费工具可以使用。

路径 01 · 完全小白

🙋 我只是想用AI聊天/写作

第一步：下载 LM Studio（lmstudio.ai），安装免费软件

第二步：在软件里搜索 "Qwen3-7B"，点击下载（约4GB）

第三步：开始聊天，完全离线免费，隐私有保障

进阶：试试 Dify（dify.ai）上传文件，做专属知识库

→ 下载 LM Studio

路径 02 · 创作者

🎨 我想做AI绘图/视频/音乐

图像生成：先到 huggingface.co/spaces 在线免费试，满意了再安装 ComfyUI 本地跑 FLUX.1

视频生成：到 replicate.com 在线体验 Wan 2.2（按次计费，很便宜）

配音/TTS：下载 Fish Speech，上传10秒录音就能克隆声音

作曲：到 huggingface.co 搜 MusicGen，在线体验

→ 在线体验 HF Spaces

路径 03 · 开发者

💻 我会编程，想构建AI应用

本地模型服务：安装 Ollama，ollama run qwen3:7b 一行命令起本地API

应用框架：用 LangChain 或 LlamaIndex 构建RAG知识库

生产部署：vLLM 部署大模型API，吞吐量提升3-4倍

代码助手：VS Code 安装 Continue 插件，接入本地模型

→ 安装 Ollama

路径 04 · 企业/团队

🏢 我想给公司部署AI知识库

无代码方案：部署 Dify（docker一键安装），上传公司文件，10分钟搭建知识库

文档质量高：改用 RAGFlow 替换Dify的RAG引擎，表格/图表识别更准

向量存储：选 Milvus（大数据）或 Qdrant（快速高效）

工作流自动化：n8n 连接AI和现有办公系统

→ 部署 Dify

路径 05 · 研究者

🔬 我想做AI研究/微调模型

基础数据：Hugging Face Hub（数据集、模型、论文一站式）

微调工具：LLaMA-Factory / Unsloth（支持LoRA微调，显存需求低）

评测基准：lm-evaluation-harness（HuggingFace官方评测框架）

科学计算：AlphaFold 3（蛋白质）、GraphCast（气象）

→ 访问 Hugging Face

路径 06 · 视频/内容创作者

🎬 我想用AI做短视频内容

脚本写作：用 Ollama 本地跑 Qwen3，帮你写视频脚本

视频生成：ComfyUI + Wan 2.2 生成素材（需要好显卡）或用在线平台

AI配音：CosyVoice 2 或 Fish Speech 本地克隆你的声音配音

字幕生成：Whisper 一键把视频音频转为精准字幕

→ 安装 ComfyUI

AI 宇宙全景图让任何人都能掌握全球AI技术

AI 宇宙全景图
让任何人都能掌握全球AI技术