在科技界的矚目下,meta公司在首屆LlamaCon大會(huì)上不僅推出了獨(dú)立的AI應(yīng)用,還解鎖了一項(xiàng)重要資源——Llama API,目前正以免費(fèi)預(yù)覽模式面向全球開(kāi)發(fā)者開(kāi)放。
據(jù)悉,Llama API為開(kāi)發(fā)者提供了測(cè)試最新模型的機(jī)會(huì),包括備受期待的Llama 4 Scout和Llama 4 Maverick。為了簡(jiǎn)化開(kāi)發(fā)流程,meta公司特別設(shè)計(jì)了一鍵API密鑰創(chuàng)建功能,并配備了輕量級(jí)的Type和Python SDK。這些舉措使得開(kāi)發(fā)者能夠迅速上手,無(wú)需繁瑣的配置。
更為貼心的是,Llama API完全兼容OpenAI SDK,為那些計(jì)劃從OpenAI平臺(tái)遷移應(yīng)用的開(kāi)發(fā)者提供了極大的便利。這意味著他們可以在不改變?cè)虚_(kāi)發(fā)習(xí)慣的前提下,輕松切換至Llama API,享受meta帶來(lái)的技術(shù)紅利。
為了進(jìn)一步提升Llama API的性能,meta攜手Cerebras和Groq兩大技術(shù)巨頭展開(kāi)合作。Cerebras宣稱,其Llama 4 Cerebras模型的tokens生成速度高達(dá)2600 tokens/s,這一速度遠(yuǎn)超傳統(tǒng)GPU解決方案,如NVIDIA,達(dá)到了18倍的領(lǐng)先優(yōu)勢(shì)。
根據(jù)Artificial Analysis的基準(zhǔn)測(cè)試數(shù)據(jù),Cerebras的這一速度不僅超過(guò)了ChatGPT的130 tokens/s,更是DeepSeek的25 tokens/s的數(shù)十倍之多。Cerebras的CEO兼聯(lián)合創(chuàng)始人Andrew Feldman對(duì)此表示:“我們非常自豪能夠讓Llama API成為全球最快的推理API。在構(gòu)建實(shí)時(shí)應(yīng)用時(shí),開(kāi)發(fā)者對(duì)速度有著極高的要求,Cerebras的加入使得AI系統(tǒng)的性能達(dá)到了GPU云無(wú)法比擬的高度。”
而Groq提供的Llama 4 Scout模型雖然速度略遜于Cerebras,但也達(dá)到了460 tokens/s,相比其他GPU方案快了4倍。在費(fèi)用方面,Groq上的Llama 4 Scout每百萬(wàn)tokens輸入費(fèi)用為0.11美元,每百萬(wàn)tokens輸出費(fèi)用為0.34美元;而Llama 4 Maverick的對(duì)應(yīng)費(fèi)用則分別為0.50美元和0.77美元。這些數(shù)據(jù)顯示出Groq在提供高性能的同時(shí),也保持了較低的成本。
此次meta推出的Llama API及其與Cerebras和Groq的合作,無(wú)疑為AI領(lǐng)域注入了新的活力。隨著技術(shù)的不斷進(jìn)步和成本的進(jìn)一步降低,AI應(yīng)用將更加廣泛地滲透到各個(gè)領(lǐng)域,為人類(lèi)社會(huì)的發(fā)展帶來(lái)前所未有的變革。