易思范

浙江大学:DeepSeek技术溯源及前沿探索

产业报道

2025年04月03日

  浙江大学计算机科学与技术学院朱强教授的《DeepSeek技术溯源及前沿探索》解读来了。这是正经的计算机科班的解读。该报告主要是介绍大模型的发展历程和技术原理,分为五部分,从语言模型、Transformer架构、chatGPT一直讲到DeepSeek,并对新一代智能体进行前沿展望。

  一、语言模型

  1.语言模型的基本任务是计算词序列成为一句话的概率。报告从早期的统计方法(如N-gram)到基于神经网络的LSTM/GRU,再到Transformer架构的演进进行了详细讲解。

  2.Word Embedding:通过低维词向量表示单词,使得语义相近的单词在向量空间中距离相近。报告还介绍了One-hot Encoding的局限性,并展示了Word Embedding如何解决这些问题。

  二、Transformer架构

  1.Transformer是当前大模型的技术基座,其核心创新在于自注意力机制(Self-Attention)和多头注意力机制(Multi-Head Attention),这些机制使得模型能够并行计算并捕捉全局上下文信息。

  2.报告详细解释了Transformer的训练机制,特别是如何通过Query、Key、Value的机制来实现对文本的理解和处理。

  三、ChatGPT

  1.ChatGPT是基于GPT-3.5的模型,通过人类反馈的强化学习(RLHF)进行微调,使其能够生成翔实、公正的回应,并拒绝不当问题。

  2.报告还介绍了ChatGPT的技术演进路径,从GPT-3到GPT-3.5,再到ChatGPT的推出,展示了其在生成、创造和上下文学习方面的强大能力。

  四、DeepSeek技术

  1.DeepSeek是浙江大学自主研发的大模型技术,报告详细介绍了其技术演进路径,从DeepSeek-V3到DeepSeek-R1,再到DeepSeek-R1-Distill。

  2.DeepSeek-V3对标GPT-4,采用了混合专家模型(MoE)和极致的工程优化,显著提升了模型的推理能力和训练效率。

  3.DeepSeek-R1则通过强化学习和规则奖励机制,进一步提升了模型的推理能力,特别是在数学和编程任务上的表现。

  五、新一代智能体

  报告探讨了从大语言模型(LLM)到智能体(Agent)的演进,强调了智能体的核心能力是逻辑推理(系统2),并介绍了智能体在任务规划、工具使用和记忆管理方面的能力。

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

+1

来源:网经社

推荐文章