當(dāng)前位置:首頁(yè) > 內(nèi)蒙古 > DeepSeek現(xiàn)已發(fā)布FlashMLA AI推理速度再提升! 正文

DeepSeek現(xiàn)已發(fā)布FlashMLA AI推理速度再提升!

來(lái)源:千龍網(wǎng)   作者:黑龍江   時(shí)間:2025-03-15 21:16:35

在AI技術(shù)飛速發(fā)展的現(xiàn)已今天,大模型已成為推動(dòng)人工智能應(yīng)用落地的發(fā)布核心引擎。然而,推理隨著模型規(guī)模的速度升不斷擴(kuò)大,推理效率低、再提資源消耗高等問(wèn)題也逐漸凸顯?,F(xiàn)已為了解決這一行業(yè)痛點(diǎn),發(fā)布2025年2月24日,推理深度求索(DeepSeek)在首屆“開(kāi)源周”活動(dòng)上,速度升正式發(fā)布了首個(gè)開(kāi)源代碼庫(kù)——FlashMLA

1

2

什么是再提 FlashMLA?

FlashMLA 是一個(gè)能讓大語(yǔ)言模型在 H800這樣的GPU上跑得更快、更高效的現(xiàn)已優(yōu)化方案,尤其適用于高性能AI任務(wù)。發(fā)布這一代碼能夠加速大語(yǔ)言模型的推理解碼過(guò)程,從而提高模型的速度升響應(yīng)速度和吞吐量,這對(duì)于實(shí)時(shí)生成任務(wù)(如聊天機(jī)器人、再提文本生成等)尤為重要。

3

FlashMLA的用處

1.算力調(diào)用提升,降本增效

具體來(lái)說(shuō),F(xiàn)lashMLA可以突破GPU算力瓶頸,降低成本。傳統(tǒng)解碼方法在處理不同長(zhǎng)度的序列(如翻譯不同長(zhǎng)度的輸入文本)時(shí),GPU的并行計(jì)算能力會(huì)被浪費(fèi),就像用卡車運(yùn)小包裹,大部分空間閑置。而FlashMLA的改進(jìn)是:通過(guò)動(dòng)態(tài)調(diào)度和內(nèi)存優(yōu)化,將Hopper GPU(如H100)的算力“榨干”,相同硬件下吞吐量顯著提升。這意味著用戶可以調(diào)用更少的GPU來(lái)完成同樣的任務(wù),大幅降低了推理成本。

4

2. 推理速度提升

經(jīng) DeepSeek 實(shí)測(cè),F(xiàn)lashMLA 在 H800 SXM5 平臺(tái)上(CUDA 12.6),在內(nèi)存受限配置下可達(dá)最高 3000GB/s,在計(jì)算受限配置下可達(dá)峰值 580 TFLOPS,可謂是速度提升巨大。

FlashMLA 的使用場(chǎng)景

實(shí)時(shí)生成任務(wù):如聊天機(jī)器人、文本生成、實(shí)時(shí)翻譯等需要低延遲、高吞吐量的場(chǎng)景。

大模型推理加速:適用于 GPT、BERT 等大規(guī)模語(yǔ)言模型的推理任務(wù)。

節(jié)約推理成本:通過(guò)減少 GPU 使用量,顯著降低推理成本,適合中小企業(yè)或硬件資源有限的環(huán)境。

5

目前該項(xiàng)目已支持在GITHUB上下載,想要體驗(yàn)的同學(xué)可以通過(guò)下方地址自行搭載哦~

https://github.com/deepseek-ai/FlashMLA,參數(shù)如下圖所示;

6

當(dāng)然,手握消費(fèi)級(jí)顯卡的小伙伴也不要灰心~合理運(yùn)用PC硬件,本地部署一套DeepSeek-R1(INT-4)模型用來(lái)辦公、學(xué)習(xí)也是不錯(cuò)的選擇!當(dāng)然,最好是使用影馳最新推出的GeForce RTX 50系列顯卡來(lái)進(jìn)行本地部署!

7

影馳GeForce RTX 50系列顯卡采用NVIDIA全新Blackwell架構(gòu),搭載第二代Transformer 引擎,支持4位浮點(diǎn) (FP4) AI,從而加速大語(yǔ)言模型 (LLM) 和專家混合模型 (MoE) 的推理和訓(xùn)練!選擇它們作為你的生產(chǎn)力顯卡,可以說(shuō)是再合適不過(guò)!歡迎各位小伙伴們前往影馳官方商城選購(gòu)哦~

標(biāo)簽:

責(zé)任編輯:五大聯(lián)賽

全網(wǎng)熱點(diǎn)