DeepSeek：东方 AI 之光，如何照亮全球？DeekSeek 速览 1.介绍DeepSeek基本信息 2.介绍De

DeekSeek 速览

DeekSeek实在是太火了，目前公粽号"别慌G个PT"已经接入DeepSeek R1模型了，欢迎找我聊天呀！

东方超新星 --DeepSeek

2025 年开年，DeepSeek 这颗 “东方超新星” 横空出世！它就像自带聚光灯和超级引擎，“嗖” 地一下闪亮登场，瞬间 “炸场”。刚推出 R1 模型，就如同扔出一颗威力超强的 “王炸” 炸弹。日活用户增长速度快得惊人，“咻” 地一下突破 2000 万。它一路 “过关斩将”，直接杀到全球 140 国应用商店的榜首，这成绩简直是要 “称霸武林” 的节奏，连大名鼎鼎的 ChatGPT 都被远远甩在身后，只能 “望其项背”。

与 2023 年初 ChatGPT 从西方一路火到东方，成功 “破圈” 不同，这次可是东风压倒西风，风向从东往西吹。在 AI 视频生成产品之后，DeepSeek 终于在大模型底座上成功实现弯道超车。和 OpenAI 一比，DeepSeek 的性价比简直绝了。

DeepSeek 基本信息

公司简介

这匹在 AI 领域横空出世的 “超级黑马”，究竟是何方神圣？DeepSeek，中文名深度求索，2023 年 7 月才在杭州正式成立。瞧这 “年纪”，妥妥的 “小年轻”，可别小瞧它，人家志向远大，一头扎进 AI 大模型的研发浪潮里，那干劲儿就像打了鸡血一样。

创始人

它的创始人梁文锋，履历堪称 “学霸” 的完美诠释。1985 年出生于广东湛江，17 岁凭借超高天赋和拼命努力，考入浙江大学电子信息工程专业，后来继续深造，拿下浙江大学信息与通信工程专业硕士学位。上学时，梁文锋就对金融市场痴迷不已，还带着团队用机器学习技术分析市场数据，搞起了全自动量化交易。那时，他在 AI 领域的独特见解和才华就开始崭露头角，像黑暗里的星星，闪闪发光。

毕业后，梁文锋一头扎进金融领域，和同学一起创立杭州雅克比投资管理有限公司，后来又成立杭州幻方科技有限公司，也就是大名鼎鼎的幻方量化。在他的带领下，幻方量化发展迅猛，短短五年就成为千亿规模的量化私募大厂，还搭建了 “萤火一号” 集群，拥有超大规模的算力底座，这为后来 DeepSeek 的崛起悄悄埋下 “成功的种子”。可以说，梁文锋在量化投资和高性能计算领域积累的深厚经验，都是 DeepSeek 的无价之宝。

技术团队

DeepSeek 的核心团队，阵容堪称 “豪华天团”！整个公司员工规模不到 140 人，和那些动辄上千人的大厂比起来，就像小蚂蚁和大象，完全不是一个量级。可千万别被人数骗了，他们的实力强得超乎想象。团队里 85% 以上的成员拥有硕士学位，40% 以上还有博士学位，平均年龄约 28 岁，90 后占比超过 75%，95 后更是占了一半以上。这些年轻的学霸们，大多毕业于北大、清华、中科大等国内顶尖高校，虽然没有所谓的行业 “老油条”，但他们像一群充满激情的 “超级特种兵”，拿着智慧和创新当 “武器”，在 AI 领域一路披荆斩棘，无人能挡。

产品时间线

2024 年

2024 年 1 月 5 日：发布 DeepSeekLLM，这是 DeepSeek 的第一个大模型，包含 670 亿参数，在 2 万亿 token 的数据集上训练，涵盖中英文，并且特别大方地全部开源 DeepSeekLLM7b/67bbase 和 DeepSeekLLM7b/67bchat，就像把宝藏直接摆在大家面前。
2024 年 1 月 25 日：发布 DeepSeek - coder，由一系列代码语言模型组成，每个模型在2万亿 token 上训练，数据集含 87% 代码和 13% 中英文自然语言，模型尺寸从 1b 到 33b 版本不等，就像一套不同尺码的 “模型套装”。
2024 年 2 月 5 日：发布 DeepSeekMath，以 DeepSeek - coder - v1.57b 为基础，在数学相关 token 以及自然语言和代码数据上预训练，训练规模达 5000 亿 token，这数学能力简直要 “爆表”。
2024 年 3 月 11 日：发布 DeepSeek - vl，一个开源的视觉 - 语言（VL）模型，采用混合视觉编码器，能高效处理高分辨率图像，就像给模型装上了一双 “超级眼睛”。
2024 年 5 月 7 日：发布第二代开源混合专家（MoE）模型 DeepSeek - v2，总参数 2360 亿，在 8.1 万亿 token 的语料库上预训练，后经监督微调（SFT）和强化学习（RL），这参数多到让人 “眼花缭乱”。
2024 年 6 月 17 日：发布 DeepSeek - coder - v2，从 DeepSeek - v2 中间检查点开始，进一步预训练额外 6 万亿 token，支持编程语言扩展到 338 种，上下文长度扩展到 128k，这能力又上了一个 “新台阶”。
2024 年 9 月 5 日：官方更新 API 支持文档，宣布合并 DeepSeekCoderv2 和 DeepSeekv2chat 两个模型，升级推出全新的 DeepSeekv2.5 新模型，为向前兼容，API 用户通过 DeepSeek - coder 或 DeepSeek - chat 均可以访问新模型，就像把两个厉害的武器合二为一。
2024 年 12 月 13 日：发布用于高级多模态理解的专家混合视觉语言模型 DeepSeek - vl2，包含三个变体，在多种视觉任务中表现卓越，简直就是视觉任务的 “小能手”。
2024 年 12 月 26 日：正式上线全新系列模型 DeepSeek - v3 首个版本并同步开源，在知识类任务、数学竞赛上表现出色，生成吐字速度大幅提升，就像开启了 “加速模式”。

2025 年

1 月 10 日：基于 DeepSeek - R1 模型开发的聊天机器人 DeepSeek 正式发布，同时登陆 iOS 和安卓平台。该模型以开源形式向全球开发者开放，遵循 MIT License 开源协议，允许用户自由使用、修改和商用，这简直就是开发者的 “福利大礼包”。
1 月 20 日：DeepSeek - R1 模型凭借出色性能引发广泛关注，其性能可对标 OpenAI 的 o1 正式版。通过强化学习技术，模型推理能力显著提升，仅需极少量标注数据即可实现高效训练。采用长链推理技术，能够逐步分解复杂问题，并通过多步骤逻辑推理解决问题，还支持模型蒸馏，开发者可将其推理能力迁移到更小型的模型中。在多个基准测试中，DeepSeek - R1 表现优异，且价格仅为 o1 的几十分之一，这性价比简直无敌了，就像用白菜价买到了黄金。
1 月 27 日：DeepSeek - R1 模型的聊天机器人应用程序在美国 iOS 应用商店的下载量超越 ChatGPT，成为最受欢迎的免费应用程序。DeepSeek 因其有限资源的优化利用，展现出中国 AI 发展突破美国制裁限制的潜力，引发市场动荡，致使英伟达、博通等全球主要科技公司股价大幅下跌，英伟达股价跌幅高达 17 - 18%。当日，由于遭受大规模恶意攻击，DeepSeek 暂停新用户注册，仅保留中国大陆手机号码、邮箱地址或谷歌账号登录方式，这一天简直就像 AI 界的 “地震日”。
1月27日，

DeepSeek 模型介绍

DeepSeek 爆火的主要原因是它的 R1 模型，这模型堪称 “性价比之王”，以较低的训练价格，性能却能对标 OpenAI 的 o1 正式版模型。要知道，使用 o1 模型可是要订阅收费的，而搭载 R1 满血版模型的 DeepSeek 不光免费使用，还把 R1 模型所有版本都免费开源，这简直就是 “业界良心”。此前开源模型如 llama、qianwen 这些，性能主要对标 gpt4，而随着 R1 的开源，直接让目前开源模型和闭源模型站在了同一高度，就像两个原本不在一个赛道的选手，现在站在了同一起跑线。

接下来主要介绍下 DeepSeek R1 系列模型：

「DeepSeek-R1-Distill-Qwen-1.5B」: Qwen2.5-Math-1.5B 基础模型的蒸馏模型，就像从一个大蛋糕里提取出的精华小块。
「DeepSeek-R1-Distill-Qwen-7B」：Qwen2.5-Math-7B 基础模型的蒸馏模型。
「DeepSeek-R1-Distill-Llama-8B」： Llama-3.1-8B 基础模型的蒸馏模型。
「DeepSeek-R1-Distill-Qwen-14B」：Qwen2.5-14B 基础模型的蒸馏模型。
「DeepSeek-R1-Distill-Qwen-32B」： Qwen2.5-32B 基础模型的蒸馏模型。
「DeepSeek-R1-Distill-Llama-70B」：Llama-3.3-70B-Instruct 基础模型的蒸馏模型。
「DeepSeek-R1」：参数量为671B，最长上下文 128K，目前 DeepSeek 最强模型，就像 DeepSeek 家族里的 “超级大哥”。

可通过github、huggingface、Ollama等第三方托管平台下载模型进行本地部署。

github:
github.com/deepseek-ai
huggingface:
huggingface.co/deepseek-ai

DeepSeek API 介绍

使用 DeepSeek 非常方便，你可以直接在 DeepSeek 官网 / APP 上使用（免费），也能通过调用 DeepSeek 的 API 来访问（付费），就像有两条不同的路都能通向宝藏。

目前官网提供的模型如下：

模型名称	模型	上下文长度	最大思维链长度	价格
deepseek-chat	DeepSeek-V3	64K	8K	输入 0.5 元 / 百万 tokens，输出 8 元 / 百万 tokens
deepseek-reasoner	DeepSeek-R1	64K	32K	输入 1 元 / 百万 tokens，输出 16 元 / 百万 tokens

更多内容参考其 API 开发文档：
api-docs.deepseek.com/zh-cn/

使用方法

直接访问

DeepSeek 最方便的当然是直接官网使用，但因为 DeepSeek 实在太火，基本问一次问题，就会提示服务器繁忙。

DeepSeek官网： chat.deepseek.com/

API调用

通过 API 方式调用会好一些，不过目前官网 API 调用方式返回较慢，而且这种方式是需要收费的，目前很多第三方云服务平台也已经部署了 DeepSeek 模型可直接调用。

官方API: platform.deepseek.com/usage
硅基流动： cloud.siliconflow.cn/models
魔搭： www.modelscope.cn/models

BTW

目前公粽号"别慌G个PT"现在也接入 DeepSeek 模型，可直接在对话窗口进行对话，由于目前使用人数较少，可免费不限次使用，这简直就是 “薅羊毛” 的好机会。