DeepSeek:东方 AI 之光,如何照亮全球?

2,017 阅读9分钟

DeekSeek 速览

DeekSeek实在是太火了,目前公粽号"别慌G个PT"已经接入DeepSeek R1模型了,欢迎找我聊天呀!

东方超新星 --DeepSeek

2025 年开年,DeepSeek 这颗 “东方超新星” 横空出世!它就像自带聚光灯和超级引擎,“嗖” 地一下闪亮登场,瞬间 “炸场”。刚推出 R1 模型,就如同扔出一颗威力超强的 “王炸” 炸弹。日活用户增长速度快得惊人,“咻” 地一下突破 2000 万。它一路 “过关斩将”,直接杀到全球 140 国应用商店的榜首,这成绩简直是要 “称霸武林” 的节奏,连大名鼎鼎的 ChatGPT 都被远远甩在身后,只能 “望其项背”。

与 2023 年初 ChatGPT 从西方一路火到东方,成功 “破圈” 不同,这次可是东风压倒西风,风向从东往西吹。在 AI 视频生成产品之后,DeepSeek 终于在大模型底座上成功实现弯道超车。和 OpenAI 一比,DeepSeek 的性价比简直绝了。

DeepSeek 基本信息

公司简介

这匹在 AI 领域横空出世的 “超级黑马”,究竟是何方神圣?DeepSeek,中文名深度求索2023 年 7 月才在杭州正式成立。瞧这 “年纪”,妥妥的 “小年轻”,可别小瞧它,人家志向远大,一头扎进 AI 大模型的研发浪潮里,那干劲儿就像打了鸡血一样。

创始人

它的创始人梁文锋,履历堪称 “学霸” 的完美诠释。1985 年出生于广东湛江,17 岁凭借超高天赋和拼命努力,考入浙江大学电子信息工程专业,后来继续深造,拿下浙江大学信息与通信工程专业硕士学位。上学时,梁文锋就对金融市场痴迷不已,还带着团队用机器学习技术分析市场数据,搞起了全自动量化交易。那时,他在 AI 领域的独特见解和才华就开始崭露头角,像黑暗里的星星,闪闪发光。

毕业后,梁文锋一头扎进金融领域,和同学一起创立杭州雅克比投资管理有限公司,后来又成立杭州幻方科技有限公司,也就是大名鼎鼎的幻方量化。在他的带领下,幻方量化发展迅猛,短短五年就成为千亿规模的量化私募大厂,还搭建了 “萤火一号” 集群,拥有超大规模的算力底座,这为后来 DeepSeek 的崛起悄悄埋下 “成功的种子”。可以说,梁文锋在量化投资和高性能计算领域积累的深厚经验,都是 DeepSeek 的无价之宝。

image.png

image.png

技术团队

DeepSeek 的核心团队,阵容堪称 “豪华天团”!整个公司员工规模不到 140 人,和那些动辄上千人的大厂比起来,就像小蚂蚁和大象,完全不是一个量级。可千万别被人数骗了,他们的实力强得超乎想象。团队里 85% 以上的成员拥有硕士学位,40% 以上还有博士学位,平均年龄约 28 岁,90 后占比超过 75%,95 后更是占了一半以上。这些年轻的学霸们,大多毕业于北大、清华、中科大等国内顶尖高校,虽然没有所谓的行业 “老油条”,但他们像一群充满激情的 “超级特种兵”,拿着智慧和创新当 “武器”,在 AI 领域一路披荆斩棘,无人能挡。

产品时间线

2024 年

  • 2024 年 1 月 5 日:发布 DeepSeekLLM,这是 DeepSeek 的第一个大模型,包含 670 亿参数,在 2 万亿 token 的数据集上训练,涵盖中英文,并且特别大方地全部开源 DeepSeekLLM7b/67bbase 和 DeepSeekLLM7b/67bchat,就像把宝藏直接摆在大家面前。
  • 2024 年 1 月 25 日:发布 DeepSeek - coder,由一系列代码语言模型组成,每个模型在2万亿 token 上训练,数据集含 87% 代码和 13% 中英文自然语言,模型尺寸从 1b 到 33b 版本不等,就像一套不同尺码的 “模型套装”。
  • 2024 年 2 月 5 日:发布 DeepSeekMath,以 DeepSeek - coder - v1.57b 为基础,在数学相关 token 以及自然语言和代码数据上预训练,训练规模达 5000 亿 token,这数学能力简直要 “爆表”。
  • 2024 年 3 月 11 日:发布 DeepSeek - vl,一个开源的视觉 - 语言(VL)模型,采用混合视觉编码器,能高效处理高分辨率图像,就像给模型装上了一双 “超级眼睛”。
  • 2024 年 5 月 7 日:发布第二代开源混合专家(MoE)模型 DeepSeek - v2总参数 2360 亿,在 8.1 万亿 token 的语料库上预训练,后经监督微调(SFT)和强化学习(RL),这参数多到让人 “眼花缭乱”。
  • 2024 年 6 月 17 日:发布 DeepSeek - coder - v2,从 DeepSeek - v2 中间检查点开始,进一步预训练额外 6 万亿 token,支持编程语言扩展到 338 种,上下文长度扩展到 128k,这能力又上了一个 “新台阶”。
  • 2024 年 9 月 5 日:官方更新 API 支持文档宣布合并 DeepSeekCoderv2 和 DeepSeekv2chat 两个模型,升级推出全新的 DeepSeekv2.5 新模型,为向前兼容,API 用户通过 DeepSeek - coder 或 DeepSeek - chat 均可以访问新模型,就像把两个厉害的武器合二为一。
  • 2024 年 12 月 13 日:发布用于高级多模态理解的专家混合视觉语言模型 DeepSeek - vl2,包含三个变体,在多种视觉任务中表现卓越,简直就是视觉任务的 “小能手”。
  • 2024 年 12 月 26 日:正式上线全新系列模型 DeepSeek - v3 首个版本并同步开源,在知识类任务、数学竞赛上表现出色,生成吐字速度大幅提升,就像开启了 “加速模式”。

2025 年

  • 1 月 10 日:基于 DeepSeek - R1 模型开发的聊天机器人 DeepSeek 正式发布,同时登陆 iOS 和安卓平台。该模型以开源形式向全球开发者开放,遵循 MIT License 开源协议,允许用户自由使用、修改和商用,这简直就是开发者的 “福利大礼包”。
  • 1 月 20 日:DeepSeek - R1 模型凭借出色性能引发广泛关注,其性能可对标 OpenAI 的 o1 正式版。通过强化学习技术,模型推理能力显著提升,仅需极少量标注数据即可实现高效训练。采用长链推理技术,能够逐步分解复杂问题,并通过多步骤逻辑推理解决问题,还支持模型蒸馏,开发者可将其推理能力迁移到更小型的模型中 。在多个基准测试中,DeepSeek - R1 表现优异,且价格仅为 o1 的几十分之一,这性价比简直无敌了,就像用白菜价买到了黄金。
  • 1 月 27 日:DeepSeek - R1 模型的聊天机器人应用程序在美国 iOS 应用商店的下载量超越 ChatGPT,成为最受欢迎的免费应用程序。DeepSeek 因其有限资源的优化利用,展现出中国 AI 发展突破美国制裁限制的潜力,引发市场动荡,致使英伟达、博通等全球主要科技公司股价大幅下跌,英伟达股价跌幅高达 17 - 18%。当日,由于遭受大规模恶意攻击,DeepSeek 暂停新用户注册,仅保留中国大陆手机号码、邮箱地址或谷歌账号登录方式,这一天简直就像 AI 界的 “地震日”。
  • 1月27日,

DeepSeek 模型介绍

DeepSeek 爆火的主要原因是它的 R1 模型,这模型堪称 “性价比之王”,以较低的训练价格,性能却能对标 OpenAI 的 o1 正式版模型。要知道,使用 o1 模型可是要订阅收费的,而搭载 R1 满血版模型的 DeepSeek 不光免费使用,还把 R1 模型所有版本都免费开源,这简直就是 “业界良心”。此前开源模型如 llama、qianwen 这些,性能主要对标 gpt4,而随着 R1 的开源,直接让目前开源模型和闭源模型站在了同一高度,就像两个原本不在一个赛道的选手,现在站在了同一起跑线。

接下来主要介绍下 DeepSeek R1 系列模型:

  • 「DeepSeek-R1-Distill-Qwen-1.5B」: Qwen2.5-Math-1.5B 基础模型的蒸馏模型,就像从一个大蛋糕里提取出的精华小块。
  • 「DeepSeek-R1-Distill-Qwen-7B」:Qwen2.5-Math-7B 基础模型的蒸馏模型。
  • 「DeepSeek-R1-Distill-Llama-8B」: Llama-3.1-8B 基础模型的蒸馏模型。
  • 「DeepSeek-R1-Distill-Qwen-14B」:Qwen2.5-14B 基础模型的蒸馏模型。
  • 「DeepSeek-R1-Distill-Qwen-32B」: Qwen2.5-32B 基础模型的蒸馏模型。
  • 「DeepSeek-R1-Distill-Llama-70B」:Llama-3.3-70B-Instruct 基础模型的蒸馏模型。
  • 「DeepSeek-R1」:参数量为671B,最长上下文 128K,目前 DeepSeek 最强模型,就像 DeepSeek 家族里的 “超级大哥”。

image.png

image.png

可通过github、huggingface、Ollama等第三方托管平台下载模型进行本地部署。

github:
github.com/deepseek-ai
huggingface:
huggingface.co/deepseek-ai

DeepSeek API 介绍

使用 DeepSeek 非常方便,你可以直接在 DeepSeek 官网 / APP 上使用(免费),也能通过调用 DeepSeek 的 API 来访问(付费),就像有两条不同的路都能通向宝藏。

目前官网提供的模型如下:

模型名称模型上下文长度最大思维链长度价格
deepseek-chatDeepSeek-V364K8K输入 0.5 元 / 百万 tokens,输出 8 元 / 百万 tokens
deepseek-reasonerDeepSeek-R164K32K输入 1 元 / 百万 tokens,输出 16 元 / 百万 tokens

更多内容参考其 API 开发文档:
api-docs.deepseek.com/zh-cn/

使用方法

直接访问

DeepSeek 最方便的当然是直接官网使用,但因为 DeepSeek 实在太火,基本问一次问题,就会提示服务器繁忙。

DeepSeek官网: chat.deepseek.com/

API调用

通过 API 方式调用会好一些,不过目前官网 API 调用方式返回较慢,而且这种方式是需要收费的,目前很多第三方云服务平台也已经部署了 DeepSeek 模型可直接调用。

官方API: platform.deepseek.com/usage
硅基流动: cloud.siliconflow.cn/models
魔搭: www.modelscope.cn/models

BTW

目前公粽号"别慌G个PT"现在也接入 DeepSeek 模型,可直接在对话窗口进行对话,由于目前使用人数较少,可免费不限次使用,这简直就是 “薅羊毛” 的好机会。