A Microsoft BitNet megmutatja, mit tehet az AI mindössze 400 MB -mel, és nincs GPU

A BitNet B1.58 2B4T felülmúlja a riválisokat, mint a Llama, a Gemma és a Qwen a közös feladatokon

Mi történt most? A Microsoft bevezette a BitNet B1.58 2B4T -t, egy új típusú nagy nyelvű modellt, amelyet a kivételes hatékonyság érdekében terveztek. Ellentétben a hagyományos AI modellektől, amelyek az egyes súlyok ábrázolásához 16- vagy 32 bites lebegőpontos számokra támaszkodnak, a BitNet csak három diszkrét értéket használ: -1, 0 vagy +1. Ez a három kvantálásnak nevezett megközelítés lehetővé teszi az egyes súlyok tárolását mindössze 1,58 bitben. Az eredmény egy olyan modell, amely drasztikusan csökkenti a memória használatát, és sokkal könnyebben futhat a szokásos hardveren, anélkül, hogy a nagyméretű GPU-kra szükség lenne, amelyek általában a nagyszabású AI-hez szükségesek.

A BitNet B1.58 2B4T modellt a Microsoft általános mesterséges intelligencia csoportja fejlesztette ki, és két milliárd paramétert tartalmaz – belső értékeket, amelyek lehetővé teszik a modell számára a nyelv megértését és generálását. Az alacsony pontosságú súlyok kompenzálása érdekében a modellt egy négy billió token hatalmas adatkészletre képezték, ami nagyjából megegyezik a 33 millió könyv tartalmával. Ez a kiterjedt képzés lehetővé teszi a BitNet számára, hogy megegyezzen – vagy bizonyos esetekben jobb, mint – más hasonló méretű vezető modellekkel, mint például a Meta’s Llama 3.2 1B, a Google Gemma 3 1B és az Alibaba QWEN 2,5 1b.

A benchmark-tesztekben a BitNet B1.58 2B4T erős teljesítményt mutatott a különféle feladatok során, ideértve az iskolai matematikai problémákat és a józan ész érvelését igénylő kérdéseket. Bizonyos értékelések során még felülmúlta a versenytársait.

Ami valóban elkülöníti a BitNet -t, az a memória hatékonysága. A modell csak 400 MB memóriát igényel, ami kevesebb, mint egyharmada az összehasonlítható modelleknek általában. Ennek eredményeként simán futhat a szokásos CPU-kon, beleértve az Apple M2 chipjét, anélkül, hogy támaszkodna a csúcskategóriás GPU-ra vagy a speciális AI hardverre.

Ezt a hatékonysági szintet a BitNet.cpp nevű egyedi szoftverkeret teszi lehetővé, amelyet úgy optimalizáltak, hogy teljes mértékben kihasználhassa a modell hármas súlyait. A keret biztosítja a gyors és könnyű teljesítményt a mindennapi számítástechnikai eszközökön.

A standard AI könyvtárak, mint például a Face Transformers átölelése, nem kínálnak ugyanazokat a teljesítmény -előnyöket, mint a BitNet B1.58 2B4T, az egyedi bitnet.cpp keretrendszer használatával. A GitHub -on elérhető, a keretrendszert jelenleg optimalizálják a CPU -khoz, de a jövőbeni frissítések során más processzortípusok támogatását tervezik.

A modell pontosságának csökkentésének gondolata a memória mentése érdekében nem új, mivel a kutatók már régóta feltárták a modell tömörítését. A legtöbb múltbeli kísérlet azonban a teljes pontosságú modellek átalakítását jelentette a képzés után, gyakran a pontosság költségén. A BitNet B1.58 2B4T eltérő megközelítést alkalmaz: az alapoktól csak három súlyérték (-1, 0 és +1) felhasználásával képzett. Ez lehetővé teszi, hogy elkerülje a korábbi módszerekben látható teljesítményveszteségeket.

Ennek az eltolódásnak jelentős következményei vannak. A nagy AI modellek futtatása általában erőteljes hardvereket és jelentős energiát igényel, olyan tényezőket, amelyek növelik a költségeket és a környezeti hatást. Mivel a BitNet rendkívül egyszerű számításokra támaszkodik – többnyire a szorzás helyett – sokkal kevesebb energiát fogyaszt.

A Microsoft kutatói becslések szerint 85–96 százalékkal kevesebb energiát használnak, mint az összehasonlítható teljes pontosságú modellek. Ez kinyithatja az ajtót a fejlett AI futtatásához közvetlenül a személyes eszközökön, felhőalapú szuperszámítógépek nélkül.

Ennek ellenére a BitNet B1.58 2B4T -nek van bizonyos korlátozása. Jelenleg csak a specifikus hardvert támogatja, és megköveteli az egyéni bitnet.cpp keretet. A kontextusablak – az egyszerre feldolgozott szövegmennyiség – kisebb, mint a legfejlettebb modelleké.

A kutatók továbbra is azt vizsgálják, hogy a modell miért teljesít olyan jól egy ilyen egyszerűsített architektúrával. A jövőbeli munka célja, hogy bővítse képességeit, ideértve a több nyelv és a hosszabb szövegbemenetek támogatását is.