明天你会感谢今天奋力拼搏的你。
ヾ(o◕∀◕)ノヾ
努力成为懂AI、懂编程、懂业务的全栈AI工程师。
AGI(Artificial General Intelligence):通用人工智能。
识别是否为AI的观点:基于机器学习、神经网络的是 AI,基于规则、搜索的不是 AI。
对待AI,要用「用人思维」:
大模型:全称「大语言模型」,英文「Large Language Model」,缩写「LLM」。
市面上好用的大模型和对话产品介绍
国家 |
公司 |
对话产品 |
旗舰大模型 |
网址 |
美国 |
OpenAI |
ChatGPT |
GPT |
https://chatgpt.com/ |
美国 |
Microsoft |
Copilot |
GPT 和未知 |
https://copilot.microsoft.com/ |
美国 |
|
Gemini |
Gemini |
https://gemini.google.com/ |
美国 |
Anthropic |
Claude |
Claude |
https://claude.ai/ ,公认不输甚至超过 GPT 的 |
中国 |
百度 |
文心一言 |
文心 |
https://yiyan.baidu.com/ |
中国 |
阿里云 |
通义千问 |
通义千问 |
https://tongyi.aliyun.com/qianwen |
中国 |
智谱 AI |
智谱清言 |
GLM |
https://chatglm.cn/ |
中国 |
月之暗面 |
Kimi Chat |
Moonshot |
https://kimi.moonshot.cn/ |
中国 |
MiniMax |
星野 |
abab |
https://www.xingyeai.com/ |
中国 |
深度探索 |
deepseek |
DeepSeek |
https://chat.deepseek.com/ |
训练和推理是大模型工作的两个核心过程,用人类比,训练就是学,推理就是用。
训练:
推理:
Token 是什么?
这套生成机制的内核叫「Transformer 架构」。其目前是人工智能领域最广泛流行的架构,但transformer 已经不是最先进的了。当前的AI大模型架构有如下:
架构 |
设计者 |
特点 |
链接 |
Transformer |
|
最流行,几乎所有大模型都用它 |
|
RWKV |
PENG Bo |
可并行训练,推理性能极佳,适合在端侧使用 |
|
Mamba |
CMU & Princeton |
性能更佳,尤其适合长文本生成 |
|
Test-Time Training (TTT) |
Stanford, UC San Diego, UC Berkeley & Meta AI |
速度更快,长上下文更佳 |
目前只有 transformer 被证明了符合 scaling-law。
大模型技术分两个部分:
训练基础大模型:全世界只需要 1000 人做这个
建造大模型应用:所有技术人,甚至所有人,都需要掌握
大模型应用技术特点:门槛低,天花板高。
Agent 还太超前,Copilot是当前主流。
实现 Copilot 的主流架构是多 Agent 工作流:
Prompt是操作大模型的唯一接口。
就像和一个人对话,你说一句,ta 回一句,你再说一句,ta 再回一句……
Agent:AI 主动提要求
Function Calling:AI 要求执行某个函数
场景举例:你问 ta「我明天去杭州出差,要带伞吗?」,ta 让你先看天气预报,你看了告诉 ta,ta 再告诉你要不要带伞。
Embeddings:把文字转换为更易于相似度计算的编码。这种编码叫向量
向量数据库:把向量存起来,方便查找
向量搜索:根据输入向量,找到最相似的向量
场景举例:考试时,看到一道题,到书上找相关内容,再结合题目组成答案。然后,就都忘了
努力学习考试内容,长期记住,活学活用。
面对一个需求,如何选择技术方案?下面是个不严谨但常用思路。
其中最容易被忽略的,是准备测试数据
值得尝试 Fine-tuning 的情况:
基础模型选型:
合规和安全是首要考量因素,如下列出哪些场景适合哪种大模型:
然后用测试数据,在可以选择的模型里,做测试,找出最优。
AI落地场景的思路:
内容引自孙志岗老师的AI 大模型系列课程:https://agiclass.ai/
全部评论