December 28, 2024
ディープシーク V3: オープンソースの AI 革命
ディープシーク 最新モデルのDeepSeek-V3でAIコミュニティを騒がせています。これは単なるイテレーションではありません。多くのトップクラスのAIモデル、特に非公開のモデルを積極的に上回っている強力な勢力です。オープンソースのAIがセカンドフィドルで活躍するという考えは忘れてください。DeepSeek-V3は新しいベンチマークを設定し、独自の道を切り開いています。
DeepSeek-V3を本当に際立たせているのは、その驚異的な速度と効率性であり、情報処理速度が非常に速いことです。 1 秒あたり 60 トークン -前作の3倍に増加。しかし、これは単なるスピードデーモンではありません。コーディングや数学からテキスト処理まで、複雑なタスクを処理できる汎用性の高いパワーハウスでもあり、デジタル領域における多面的なツールであることが証明されています。
おそらく最も驚くべきことは ディープシーク V3 完全にオープンソースで無料です。API、チャット Web サイト、またはローカルでのデプロイが可能で、非常に競争力のある価格設定になっているため、求めるすべての人にとって頼りになるソリューションとして位置づけられています。 最先端の人工知能 銀行を壊すことなく。
一、DeepSeek V3のアーキテクチャと技術的詳細
専門家混合 (MoE) アーキテクチャ
ディープシークV3は以下を採用しています 混合専門家 (MoE) アーキテクチャは、パフォーマンスと効率の重要な要素です。このアーキテクチャは複数のニューラルネットワークで構成されており、それぞれが異なるタスクに合わせて最適化されています。
DeepSeek-V3がプロンプトを受信すると、ルーターと呼ばれるコンポーネントが、リクエストの処理に最適なニューラルネットワークにインテリジェントにリクエストを送信します。特定のタスクに必要なリソースのみを使用することでハードウェアコストを削減できるため、このようなニューラルネットワークの選択的な起動が MoE アーキテクチャの効率性を高めています。MoE 構造内の個々のニューラルネットワークには、それぞれ次のような特徴があります。 340億個のパラメーター。
パラメーター
DeepSeek-V3は、AIの世界における真の巨大企業であり、合計6,710億のパラメーターを誇ります。この数字は、処理中に各トークンのアクティブパラメーターがわずか370億個に減少し、あたかも選択的にその力を利用しているかのようです。しかし、からアクセスすると ハグフェイス プラットフォームでは、モデルの巨大なサイズが不思議なことに6,850億個のパラメーターに拡大しました。これは、次の要素が追加されたことに起因する微妙な違いです マルチトークン予測 (MTP) モジュールウェイト。
その後、コアモデルの6,710億という驚異的なパラメータがMTPモジュールによって強化され、さらに140億の重量が増え、その結果、6,850億という一見不可能な数に達しました。つまり、見事なスケール表示では、DeepSeek-V3は約クロックインします。 1.6 倍 Metaのすでに巨大なLlama 3.1 405Bモデルのサイズ。この比較は、その大きさを大局的に捉えたものです。
トレーニングデータ
このモデルの優れた機能は、トレーニングされた膨大な量のデータによって支えられています。DeepSeek-V3は次のデータセットでトレーニングされました 14.8兆トークン。特に、データサイエンスでは、トークンは生データのビットを表すために使用され、100万トークンは約75万語に相当します。
マルチヘッド潜在注意 (MLA)
DeepSeek-V3は次のようなテクニックを使っています マルチヘッド潜在注意 (MLA) は、大規模な言語モデルで一般的に使用される注意メカニズムの拡張バージョンです。注意メカニズムは、モデルが文の最も重要な部分を特定するのに役立ちます。MLAでは、モデルが 1 つのテキストから重要な詳細を 1 回だけではなく複数回抽出できるようにすることで、この点を改善しています。つまり、モデルが重要な情報を見逃す可能性が低くなり、モデルの精度が高まります。
マルチトークン予測
一般的な言語モデルは、一度に 1 トークンずつテキストを生成します。しかし、これとは対照的に、DeepSeek-V3 は一度に複数のトークンを生成します。このマルチトークン予測機能により、推論プロセス、つまりモデルがテキストを生成するのにかかる時間が大幅に短縮されます。さらに、このメソッドは次の用途にも使用できます。 投機的デコーディングこれにより、推論をさらに加速できます。
FP8 混合精度トレーニングフレームワーク
ディープシークV3は、を使用してトレーニングされました FP8 混合精度トレーニングフレームワーク。このような大規模なモデルでこのフレームワークが使用されたのは今回が初めてで、実現可能かつ効果的であることが証明されました。FP8 (8 ビット浮動小数点) は、通常の 16 ビットや 32 ビット形式よりもコンパクトな数値形式です。つまり、必要なメモリが少なく、計算速度を大幅に向上させることができます。
トレーニング効率
DeepSeek-V3のトレーニングプロセスは非常に効率的でした。DeepSeek-V3 の事前トレーニングフェーズで必要なのはそれだけでした。 26億6400万H800 GPU時間。事前トレーニング後のその後のトレーニングステージでは、わずか10万GPU時間しか必要ありませんでした。DeepSeekは、2048基のGPUを搭載したデータセンターを使用してわずか約2か月でモデルをトレーニングすることができました。同社によれば、DeepSeek-V3のトレーニングに費やした費用は、わずか550万ドルでした。これは他の類似モデルよりも大幅に低コストです。
たとえば、Llama 3 405Bは3,080万GPU時間を使用していました。これは、DeepSeek-V3の約11倍のコンピューティング時間です。この成果は、以前考えられていたよりも少ない計算量で大規模な言語モデルをトレーニングできることを示しており、これにより、より効率的で手頃な価格の AI 開発への扉が開かれる可能性があります。DeepSeek のアプローチは、アルゴリズムとデータの進歩によって、いかに大規模な GPU クラスターの必要性を減らすことができるかを浮き彫りにしています。
推論能力
DeepSeekは、DeepSeek-V3に高度な推論機能も組み込んでいます。このモデルは、その推論機能を以下から抽出します。 ディープシーク R1 一連のモデル。DeepSeekのパイプラインは、R1の検証パターンとリフレクションパターンをDeepSeek-V3に統合します。これにより、DeepSeek-V3 の推論パフォーマンスが向上します。
DeepSeek V3の技術的基盤について調べてきたので、次はそのパフォーマンスとベンチマーク結果に注目して、これらの技術革新が実際の機能にどのように反映されるかを見てみましょう。
II。パフォーマンスとベンチマーク
数字は出ていますが、DeepSeek-V3は印象的であるだけでなく、真剣な競争相手でもあります。他のモデルとのマッチングだけでは満足せず、積極的に取り組んでいます。 優れている 多くのオープンソースの代替手段があり、トップのクローズドソースの競合他社に対しても優位に立っています。また、前述のように、1 秒あたり 60 トークンを処理するという超高速でもあります。これは 3 倍の速さです。 ディープシーク V2。
DeepSeek-V3には、パフォーマンスを向上させる高度な機能が組み込まれています。
- 使用しています 専門家混合 (MoE) アーキテクチャ と 6,710億個のパラメーター、 と トークンあたり370億有効化。これにより、各タスクでネットワークの一部のみをアクティブにすることで、効率的な処理が可能になります。
- 活用しています マルチヘッド潜在注意 (MLA) テキストから重要な詳細情報を複数回抽出し、精度を向上させます。
- また、組み込まれています マルチトークン予測 一度に複数のトークンを生成できるため、推論が速くなります。
このモデルは14.8兆個のトークンでトレーニングされており、さまざまなベンチマークで優れたパフォーマンスを示しています。
DeepSeek-V3は、競争の激しいプログラミング課題に対する優れた適性を示しており、それを上回っています クロード 3.5 ソネット コードフォースベンチマークについて。以下の点で優れています。 エイダー・ポリグロット・テスト、新しいコードを既存のコードと統合する機能を紹介しています。結果から、トップパフォーマーは次のとおりであることがわかります。
- o1-2024-11-12 (Tingli) フォーマット全体で約 65% の精度でベンチマークをリードし、タスク全体で並外れたパフォーマンスを示しています。
- ディープシークチャット V3 プレビュー そして クロード 3.5 ソネット-2024-1022 スコアは40~50%の範囲で、どちらの形式でもタスクが確実に完了していることがわかります。
DeepSeek V3は次のスコアも達成しています 88.5 MMLUベンチマークでは、わずかに遅れています ラマ3.1、しかしパフォーマンスは優れている クウェン2.5 そして クロード 3.5 ソネット。また、DROPベンチマークでも91.6のスコアを獲得し、同じモデルを上回り、その強力な推論能力を示しています。
このモデルは、最大128Kの長さのコンテキストウィンドウを処理でき、以下も組み込まれています FP8 混合プレシジョントレーニング トレーニングの効率化のため。
DeepSeek V3のパフォーマンスは素晴らしいですが、真に役立つためには、AIモデルにアクセスできる必要があります。次のセクションでは、DeepSeek V3がどのようにしてユーザーに提供されるのかを探ります。
III。アクセシビリティと使用方法
モデルが突き通せない壁の後ろに閉じ込められていれば、パフォーマンスはほとんど意味がありません。ありがたいことに、DeepSeek-V3はアクセシビリティを優先しています。
オープンソース: GitHub でコードを入手して心ゆくまで修正できます。モデルのウェイトは GitHub で簡単に入手できます。 ハグフェイス。つまり、さまざまな用途に使用できるということです アプリケーション 商業プロジェクトを含む。
API アクセス: DeepSeekはOpenAIのAPIと互換性のあるAPIを提供しているため、既存のシステムとの統合が容易になります。
チャットサイト: DeepSeek WebサイトにアクセスしてV3と直接チャットできます。コーディングやAPIは必要ありません。
深い役割: カスタマイズされたAIコンパニオンと考えてください。Deep Rolesを使用すると、ユーザーは独自のロールを作成したり、他のユーザーが作成したロールを探索したりできます。 カスタム GPT に似ている。
あなたもできます ディープシーク V3 をローカルにデプロイ。H200s GPU を 8 個使用することをお勧めしますが、NVIDIA、AMD、Huawei Ascend などの他のハードウェアにも導入できます。ディープシーク推論デモ、sGlang、LmDeploy、TensorRT-LLM、vLLM など、多くのオープンソースソフトウェアオプションでもこれを実現できます。これは、さまざまなプラットフォームへの適応性を示しています。
DeepSeek-V3は、さまざまなテキストベースのタスクにも優れています。コーディング、翻訳、コンテンツ生成に最適です。これらのタスクはすべて、テキスト処理の効率性によって可能になります。
IV。推論コスト
APIの価格体系は、2025年2月8日まではDeepSeek V2の価格体系を反映しています。この後、価格は次のように設定されます。
- 入力: トークン 100 万個あたり 0.27 USD (キャッシュミス)
- 入力: トークン 100 万個あたり 0.07 ドル (キャッシュヒット)
- 出力: 100万トークンあたり1.10ドル
簡単に言うと、DeepSeekは はるかに手頃な価格 クロード3.5ソネット、GPT-4O、などのモデルよりも ジェミニ 1.5 プロ。実際、ディープシーク V3 は 53倍安い クロード・ソネットよりも推論に使うんだ!オン オープンルーター、インプットはわずか0.14ドル、アウトプットは0.28ドルです。
V. 制限事項
ディープシークV3は、中国の規制により、 政治的にデリケートな話題を避ける。以下についての回答は得られません。
- 天安門広場
- 習近平
- 中国による台湾侵攻の地政学的影響
これは、モデルに「中核的な社会主義的価値を体現する」ことを義務付ける中国の規制によるものです。また、「脱獄」の影響を受けないわけでもありません。つまり、ノウハウを持っている人が保護措置を迂回できるということです。
これらの制限はDeepSeek-V3に固有のものではなく、中国国内で開発されたAIモデルに共通する特徴であることに注意してください。これは、これらのモデルが作成される際の政治環境や規制環境によるものです。
VI。適用と影響
ディープシーク V3 の影響は否定できません。その理由は次のとおりです。
研究開発: このようなオープンソースで高性能なモデルはイノベーションを促進し、研究者がDeepSeekの技術を実験して構築できるようにします。
商用アプリケーション: ライセンスによって商用利用が許可され、さまざまな業界のさまざまな用途に利用できるようになります。
人工知能の民主化: 強力なAIを利用できるようにすることで、競争の場が平等になり、小規模な組織が競争できるようになります。
費用対効果の高いソリューション: トレーニングコストの削減と競争力のある価格設定により、誰にとっても魅力的な選択肢となっています。 巨額の金銭的負担なしにAIを活用することを目指しています。
現状への挑戦: トップクラスのクローズドソースモデルに挑戦するその能力は、オープンソースAIが真の実行可能な代替手段であることを示しています。
推論における革新: プレフィルに32基のH800 GPU、デコードに320基のH800 GPUを使用するこのモデルの高度な推論機能は、モデル展開における新たなレベルの高度化を示し、将来の標準を設定します。
結論
DeepSeek-V3は単なる段階的な改善ではなく、大きな飛躍です。その並外れたパフォーマンスとオープンソースのアプローチの組み合わせは、パラダイムシフトを示唆しています。トップクラスのAIは、必ずしも法外なコストや制限のあるライセンスを必要とするわけではないようです。
DeepSeek-V3のスピード、汎用性、アクセシビリティは、AI環境における強力な存在であり、テクノロジーにおけるコラボレーションと民主化の力を示しています。これは大胆な発言です。オープン開発はペースを維持できるだけでなく、それも可能だということです。 追い越す 従来のモデル。これは単なる印象的なモデルではありません。人工知能のより包括的で協調的な未来に向けて私たちを導いてくれる指針でもあります。
DeepSeek-V3のようなモデルのパワーを活用することに興味がありますか?Dirox AIの専門家に相談して、私たちがどのようにお手伝いできるかを確認してください。