据南华早报ღღ✿ღ◈,一家中国初创公司DeepSeek 正在成为2025年开源大型语言模型(LLM)领域的“最大黑马”ღღ✿ღ◈。就在几天前鬼泽夫妇ep11ღღ✿ღ◈,该公司的最新版本发布在全球人工智能(AI)社区引起轰动ღღ✿ღ◈。
这一评估来自英伟达高级研究科学家lehuღღ✿ღ◈、人工智能代理计划负责人 Jim Fan 在元旦当天在社交媒体平台X上发布的一篇帖子ღღ✿ღ◈。此前ღღ✿ღ◈,这家总部位于杭州的初创公司上周发布了同名法学硕士学位课程 DeepSeek V3ღღ✿ღ◈。
范写道ღღ✿ღ◈:“(新的 AI 模型)表明鬼泽夫妇ep11ღღ✿ღ◈,资源限制迫使你以惊人的方式重塑自我ღღ✿ღ◈。”他指的是 DeepSeek 如何以其他科技公司投资打造法学硕士的资本支出的一小部分来开发该产品ღღ✿ღ◈。
LLM 指的是 ChatGPT 等生成式 AI服务的基础技术ღღ✿ღ◈。在 AI 中鬼泽夫妇ep11lehu官网ღღ✿ღ◈,ღღ✿ღ◈,大量参数对于使 LLM 能够适应更复杂的数据模式并做出精确预测至关重要鬼泽夫妇ep11社会责任ღღ✿ღ◈。开源让公众可以访问软件程序的源代码lehuღღ✿ღ◈,允许第三方开发人员修改或共享其设计ღღ✿ღ◈、修复损坏的链接或扩展其功能ღღ✿ღ◈。
尽管美国的制裁在很大程度上阻止了中国人工智能公司获得用于训练模型的先进半导体ღღ✿ღ◈,但 DeepSeek 以比大公司更低的成本开发出了强大的 LLMღღ✿ღ◈,这表明中国人工智能公司已经取得了长足的进步ღღ✿ღ◈。
利用旨在实现高性价比训练的新架构ღღ✿ღ◈,DeepSeek的V3模型仅需278万GPU小时(即图形处理单元用于训练LLM的总时间)ღღ✿ღ◈。根据这家初创公司在12月26日发布的技术报告ღღ✿ღ◈,DeepSeek的训练过程使用了英伟达中国定制的H800 GPUღღ✿ღ◈。
这一过程大大少于 Meta 在英伟达更先进的 H100 芯片上训练其 Llama 3.1 模型所需的 3,080 万 GPU 小时数ღღ✿ღ◈,而英伟达的 H100 芯片是不允许出口到中国的ღღ✿ღ◈。
卡帕奇的观察促使樊尚当天在 X 上发文回应ღღ✿ღ◈:资源限制是一件美好的事情鬼泽夫妇ep11ღღ✿ღ◈。在残酷的人工智能竞争环境中ღღ✿ღ◈,生存本能是取得突破的主要驱动力lehuღღ✿ღ◈。”
“我关注 DeepSeek 很长时间了ღღ✿ღ◈。他们去年的开放编码模式是最好的之一lehu66乐虎国际登录平台ღღ✿ღ◈,ღღ✿ღ◈,樊纲写道乐虎lehu官网ღღ✿ღ◈。ღღ✿ღ◈。“卓越的OSS(开源软件)模式给商业化的前沿乐虎国际客户端下载公司带来了巨大压力ღღ✿ღ◈,迫使它们加快步伐lehuღღ✿ღ◈。”
云计算初创乐虎国际手机版下载人工智能公司创始人贾阳青在12月27日的一篇X帖子中呼应了樊纲的观点鬼泽夫妇ep11乐虎lehu唯一官方网站ღღ✿ღ◈。ღღ✿ღ◈。“他曾担任《南华早报》所有者阿里巴巴集团控股公司的副总裁ღღ✿ღ◈。
据报道ღღ✿ღ◈,这家初创公司是对冲基金经理 High Flyer Quant 于 2023 年分拆出来的ღღ✿ღ◈。DeepSeek 的幕后推手是 High-Flyer Quant 创始人梁文峰乐虎国际娱乐ღღ✿ღ◈。ღღ✿ღ◈,他曾在浙江大学攻读人工智能专业ღღ✿ღ◈。
DeepSeek 的大多数开发人员都是应届毕业生鬼泽夫妇ep11lehuღღ✿ღ◈,或者是人工智能职业生涯的初期人员ღღ✿ღ◈,这也是公司在招聘新员工时更看重能力而非经验的做法乐虎国际手机游戏appღღ✿ღ◈。