訪談:GridGain軟件通過集群服務(wù)器實現(xiàn)內(nèi)存共享,使內(nèi)存密集型應(yīng)用能夠在單臺服務(wù)器內(nèi)存不足的情況下正常運行。隨著AI推理所需的令牌(編碼數(shù)據(jù)項)數(shù)量持續(xù)增長,這一能力變得愈發(fā)重要。
該軟件在x86服務(wù)器集群中提供分布式內(nèi)存空間,采用大規(guī)模并行架構(gòu)。GridGain已捐贈給Apache基金會,成為開源的Apache Ignite分布式數(shù)據(jù)管理系統(tǒng),將服務(wù)器內(nèi)存用作組合存儲和處理的內(nèi)存層,并由SSD/HDD層提供備份支持。數(shù)據(jù)以鍵值對形式存儲并分布在整個集群中。該軟件可在本地部署或在AWS、Azure和GCP公有云中運行。
GridGain聲稱其引擎可用于任何數(shù)據(jù)驅(qū)動的分析或事件處理項目,不僅限于AI應(yīng)用。該公司表示,其軟件提供超低延遲的分布式多模型數(shù)據(jù)存儲和計算引擎,兩者結(jié)合或共同部署,使企業(yè)數(shù)據(jù)能夠?qū)崟r供AI推理引擎使用。同時消除了數(shù)據(jù)平面和計算平面之間的數(shù)據(jù)移動,從而提高端到端數(shù)據(jù)處理效率。GridGain完全支持ANSI 2016 SQL標(biāo)準(zhǔn),并提供鍵值、行、列、文檔、非結(jié)構(gòu)化等多種數(shù)據(jù)處理能力。
我們采訪了首席技術(shù)官Lalit Ahuja,深入了解GridGain的AI能力。
問:數(shù)據(jù)以鍵值對形式存儲并分布在集群中。GridGain如何幫助AI大語言模型訓(xùn)練?
Lalit Ahuja:GridGain是一個超低延遲數(shù)據(jù)處理平臺,結(jié)合歷史/上下文數(shù)據(jù)的可用性與復(fù)雜分析和AI工作負(fù)載的執(zhí)行,實現(xiàn)實時推理。
GridGain尚未用于訓(xùn)練大語言模型(至少我們知曉的范圍內(nèi)沒有),但該平臺經(jīng)常用于加速AI模型訓(xùn)練,包括生成訓(xùn)練測試數(shù)據(jù)或持續(xù)訓(xùn)練,可以從傳入的交易和事件中實時提取特征或生成向量嵌入,并在GridGain內(nèi)為模型訓(xùn)練提供支持。
問:在過去12個月中,GridGain在AI大語言模型訓(xùn)練和推理方面取得了哪些成就?
Lalit Ahuja:GridGain在大語言模型領(lǐng)域的最大價值主張是能夠為LLM提示和RAG應(yīng)用引入實時性。通過動態(tài)生成向量嵌入,將其寫入內(nèi)存向量存儲并供RAG應(yīng)用使用,GridGain為應(yīng)用程序?qū)崿F(xiàn)了更準(zhǔn)確、及時、相關(guān)的生成式AI交互。
例如,在交互式語音應(yīng)答系統(tǒng)中,客戶的評論被實時處理以生成相關(guān)響應(yīng)和有意義的交互,從而減少客戶要求與人工客服通話的時間。同樣,在企業(yè)事件管理通信中,基于處理事件或事故最新狀態(tài)作為LLM企業(yè)生成式AI應(yīng)用的提示,實時起草可接受的消息。
問:GridGain專注于x86服務(wù)器內(nèi)存還是GPU(HBM)內(nèi)存?這兩種用例有何不同?
Lalit Ahuja:GridGain并不專門針對某種底層硬件/內(nèi)存架構(gòu)。該平臺可以與這兩種選項配合使用,由最終用戶決定哪種對他們更有價值。許多GridGain客戶沒有基于GPU的基礎(chǔ)設(shè)施,也不認(rèn)為需要在此類基礎(chǔ)設(shè)施上投資,而其他客戶(特別是銀行業(yè),更具體地說是資本市場子領(lǐng)域)在GPU上運行GridGain,以提高實時風(fēng)險分析、投資組合管理和自動交易執(zhí)行決策的執(zhí)行性能。
問:GridGain是否與下游AI管道或存儲供應(yīng)商集成,為其提供數(shù)據(jù)加載到內(nèi)存中?
Lalit Ahuja:GridGain確實與許多上游和下游AI技術(shù)(包括管道或存儲供應(yīng)商)集成,但它還為用戶提供獨特能力,可以實際處理事件和交易,用歷史上下文數(shù)據(jù)豐富它們,提取特征,生成向量,并在這些策劃數(shù)據(jù)上執(zhí)行任何AI工作負(fù)載,所有這些都在交易或事件驅(qū)動決策的上下文中進(jìn)行。GridGain將低延遲分布式內(nèi)存數(shù)據(jù)存儲與計算引擎結(jié)合在同一資源池中的底層能力,最小化了跨網(wǎng)絡(luò)移動數(shù)據(jù)或任何形式的磁盤I/O(與讀寫基于磁盤的存儲相關(guān))引入的延遲,使此類處理更高效且真正實時。
問:GridGain內(nèi)存是否是具有數(shù)據(jù)攝取和驅(qū)逐以及攝取和驅(qū)逐緩存規(guī)則的緩存?它是如何工作的?
Lalit Ahuja:是的,但功能遠(yuǎn)不止于此。GridGain是(或可以是)資源集群(服務(wù)器、虛擬機(jī)、節(jié)點、容器等,同時部署在本地、任何云或兩者結(jié)合),數(shù)據(jù)分布在集群的內(nèi)存中。該集群可以在數(shù)據(jù)中心內(nèi)或跨數(shù)據(jù)中心水平擴(kuò)展。
集群可以配置為維護(hù)完整數(shù)據(jù)完整性,具有ACID合規(guī)性和零數(shù)據(jù)丟失,可選的持久磁盤存儲用于備份、快照和時間點恢復(fù)功能。在數(shù)據(jù)管理方面,是的,可以配置驅(qū)逐策略來自動管理內(nèi)存中熱數(shù)據(jù)的生命周期,通過基于策略的驅(qū)逐到GridGain自己的管理磁盤存儲或任何第三方持久存儲。
在數(shù)據(jù)攝取方面,GridGain公開了許多基于標(biāo)準(zhǔn)的API(Java、C++、C#、SQL、REST、Python等),并與多種商業(yè)和開源流媒體和CDC(變更數(shù)據(jù)捕獲)技術(shù)集成,用于從各種來源(包括RDBMS、NoSQL數(shù)據(jù)庫、大型機(jī)、數(shù)據(jù)倉庫、數(shù)據(jù)湖)攝取數(shù)據(jù),無論是本地還是基于云的。
問:集群服務(wù)器內(nèi)存內(nèi)容如何保持同步和組織?服務(wù)器內(nèi)存之間是否有通信?
Lalit Ahuja:數(shù)據(jù)在集群內(nèi)的各個內(nèi)存資源之間分區(qū),可選擇在集群中復(fù)制數(shù)據(jù)(RF2、RF3等)以實現(xiàn)冗余、高可用性和可配置的即時/嚴(yán)格或最終一致性。集群中的資源不斷相互通信;數(shù)據(jù)一致性和集群組織由GridGain內(nèi)實現(xiàn)的強(qiáng)大行業(yè)標(biāo)準(zhǔn)共識協(xié)議管理。
問:GridGain與WEKA的增強(qiáng)內(nèi)存網(wǎng)格有何關(guān)系?
Lalit Ahuja:GridGain的AI數(shù)據(jù)存儲與WEKA的增強(qiáng)內(nèi)存網(wǎng)格之間存在一些重疊。話雖如此,WEKA類數(shù)據(jù)網(wǎng)格支持的用例與GridGain擅長的用例略有不同。WEKA的價值可能在于圍繞可重復(fù)使用AI令牌的規(guī)模經(jīng)濟(jì),而GridGain的差異化在于其從原始數(shù)據(jù)動態(tài)生成此類令牌并使其可用于實時AI/分析驅(qū)動用例的能力。
基于與任何后端數(shù)據(jù)存儲配合工作的核心設(shè)計/功能原則,我們已開始探索與WEKA網(wǎng)格集成,將其作為更多歷史分析用例的數(shù)據(jù)源,圍繞趨勢、模式、預(yù)測等。
問:GridGain是否適用于邊緣AI推理用例?
Lalit Ahuja:是的,因為GridGain可以在邊緣基礎(chǔ)設(shè)施上運行——我們在電信和物聯(lián)網(wǎng)相關(guān)邊緣計算應(yīng)用中看到了用途。它可以對從本地傳感器、設(shè)備或事件流,或其他連接的GridGain集群傳遞或饋送到邊緣集群的相關(guān)數(shù)據(jù)運行本地化計算/分析——全球部署的GridGain集群可以有選擇地在彼此之間復(fù)制數(shù)據(jù),并具有防止網(wǎng)絡(luò)分段的額外能力(如果這是一個問題的話)。
問:GridGain技術(shù)與MemVerge的技術(shù)有何關(guān)系?
Lalit Ahuja:GridGain與MemVerge的技術(shù)沒有直接關(guān)系,但我們不斷評估更好地優(yōu)化處理能力的方法,并為客戶在底層資源管理方面提供經(jīng)濟(jì)選擇。
問:CXL將如何影響GridGain?
Lalit Ahuja:CXL也是我們正在考慮的技術(shù)之一,以幫助優(yōu)化底層資源的利用。在這種情況下,更多的是為了改善我們的數(shù)據(jù)復(fù)制和可用性能力。
注釋:RF-2是恢復(fù)力或冗余因子-2,意味著數(shù)據(jù)在系統(tǒng)中有一個冗余副本。RF-3意味著有兩個額外副本,以增強(qiáng)對數(shù)據(jù)丟失的安全性。