浙江大学：DeepSeek技术溯源及前沿探索_易思范-【电商汇】电商行业观察产品导购行情

: 浙江大学：DeepSeek技术溯源及前沿探索; 产业报道

2025年04月03日

点赞; 　　浙江大学计算机科学与技术学院朱强教授的《DeepSeek技术溯源及前沿探索》解读来了。这是正经的计算机科班的解读。该报告主要是介绍大模型的发展历程和技术原理，分为五部分，从语言模型、Transformer架构、chatGPT一直讲到DeepSeek，并对新一代智能体进行前沿展望。

　　一、语言模型

　　1.语言模型的基本任务是计算词序列成为一句话的概率。报告从早期的统计方法(如N-gram)到基于神经网络的LSTM/GRU，再到Transformer架构的演进进行了详细讲解。

　　2.Word Embedding：通过低维词向量表示单词，使得语义相近的单词在向量空间中距离相近。报告还介绍了One-hot Encoding的局限性，并展示了Word Embedding如何解决这些问题。

　　二、Transformer架构

　　1.Transformer是当前大模型的技术基座，其核心创新在于自注意力机制(Self-Attention)和多头注意力机制(Multi-Head Attention)，这些机制使得模型能够并行计算并捕捉全局上下文信息。

　　2.报告详细解释了Transformer的训练机制，特别是如何通过Query、Key、Value的机制来实现对文本的理解和处理。

　　三、ChatGPT

　　1.ChatGPT是基于GPT-3.5的模型，通过人类反馈的强化学习(RLHF)进行微调，使其能够生成翔实、公正的回应，并拒绝不当问题。

　　2.报告还介绍了ChatGPT的技术演进路径，从GPT-3到GPT-3.5，再到ChatGPT的推出，展示了其在生成、创造和上下文学习方面的强大能力。

　　四、DeepSeek技术

　　1.DeepSeek是浙江大学自主研发的大模型技术，报告详细介绍了其技术演进路径，从DeepSeek-V3到DeepSeek-R1，再到DeepSeek-R1-Distill。

　　2.DeepSeek-V3对标GPT-4，采用了混合专家模型(MoE)和极致的工程优化，显著提升了模型的推理能力和训练效率。

　　3.DeepSeek-R1则通过强化学习和规则奖励机制，进一步提升了模型的推理能力，特别是在数学和编程任务上的表现。

　　五、新一代智能体

　　报告探讨了从大语言模型(LLM)到智能体(Agent)的演进，强调了智能体的核心能力是逻辑推理(系统2)，并介绍了智能体在任务规划、工具使用和记忆管理方面的能力。

+1; 来源：网经社

推荐文章

: 天猫优品发布《2024中国家电市场全域零售白皮书》

: 浙江大学：DeepSeek技术溯源及前沿探索

: 趋势营销结合时装周快手电商女装亲子创新服饰行业上新大促模式

: 美国5月2日起取消中国小额包裹免税政策

: 市场监管总局关于印发《网络交易合规数据报送管理暂行办法》的通知

: 国美零售2024年营收4.74亿元净亏损116.29亿元

最热新闻最新新闻 更多>

电商推荐

探行AI客服 24小时无休机器人接待

产品与服务

跨境电商-进风口

关于Ecfanr

商务合作

news#ecfanr.cn（发邮件时把#换成@）

关于我们