訂閱
糾錯
加入自媒體

大模型卷價格,向量數據庫“卷”什么?

2024-05-23 09:26
腦極體
關注

“不是我不明白,這世界變化快”,崔健在20世紀寫下的這句歌詞,放在公有云市場也同樣適用。技術風向的變化之快,讓不少人感到驚訝。

2023年初大模型、生成式 AI的起飛,也帶來了向量數據庫的爆火。投融資項目爆發(fā)式增長,頭部公有云廠商都推出了AI向量數據庫的相關產品。

然而一年狂飆之后,市場逐漸退潮,全球最著名的 AI 項目之一AutoGPT在2024年初宣布,不再使用向量數據庫。因此有人質疑,向量數據庫又涼了?

圖片

不過,隨著5月份公有云廠商們掀起價格戰(zhàn),接連調低大模型API的價格,高性價比的大模型+向量數據庫,在行業(yè)應用、企業(yè)市場又顯現出了一定的商業(yè)價值。

向量數據庫這一年的潮起潮落,究竟是火了還是涼了?大模型正在卷價格,向量數據庫又該卷什么?公有云廠商又在這一市場發(fā)揮了什么作用?今天我們就來聊聊這些問題。

向量數據庫,剛剛開始

新技術的火爆,必然會伴隨炒作和泡沫,但向量作為大模型理解世界的數據形式,向量數據庫作為AI革命重要基建的位置,長期來看是不會動搖的。

為什么這么說?

向量數據庫并不是一種特別新的數據庫技術,在AI領域已經應用了七八年,谷歌在2015年就宣布使用RankBrain語義檢索來處理搜索任務。如果說數據庫是數據的“硬盤”,那么,向量數據庫就是更適合AI體質的“硬盤”。

圖片

其“AI原生”的體質,具體表現在幾個方面:

1.更高的效率。AI算法,要從圖像、音頻和文本等海量的非結構化數據中學習,提取出以向量為表示形式的“特征”,以便模型能夠理解和處理。因此,向量數據庫比傳統(tǒng)基于索引的數據庫有明顯優(yōu)勢。

2.更低的成本。大模型要從一種新技術轉化為產業(yè)價值,必須達到合理的投入產出比,而向量數據庫可以有效減少存儲和計算成本。一個公開數據是,通過騰訊云向量數據庫,QQ音樂人均聽歌時長提升3.2%、騰訊視頻有效曝光人均時長提升1.74%、QQ瀏覽器成本降低37.9%,就在于檢索效率、運行穩(wěn)定性、運營效率、推薦算法等,有了較大的提升。

3.更強的數據安全。有企業(yè)直言:“沉淀了幾十年的內部數據是我的核心競爭力,讓我無償去公開給大模型做訓練,我肯定不愿意。”想做大模型,還要確保數據的隱私安全,就必須與數據庫產品做好配合,這給向量數據庫的本地部署帶來了廣闊的需求。

圖片

4.更大的擴展性。隨著大模型走向行業(yè)應用,垂直領域的AI用例不斷增多,洶涌的數據洪潮和存算任務,會帶來大量向量搜索的需求。而向量數據庫嵌入向量的長度不受限制,具有良好的擴展性,可以根據AI用例和模型而變化,更好地處理大規(guī)模數據集。

從大模型技術標桿的OpenAI發(fā)布的GPT-4o和即將發(fā)布的GPT-5消息來看,以及國內外商業(yè)化大模型的進展來看,大模型的技術路線還沒有發(fā)生顛覆性的變革,因此落地應用還是需要向量檢索和向量數據庫。

由此可以肯定,向量數據庫市場必然還會迎來一輪增長。趨于冷靜,只是2023年熱情過度高漲的適當回調。

兩大新勢力,云是方向

據東北證券預測,到2030年,全球向量數據庫市場規(guī)模有望達到 500 億美元,國內向量數據庫市場規(guī)模有望超過600億人民幣。向量數據庫市場吸引了“群雄逐鹿”,從引爆到飽和,進展迅猛,

傳統(tǒng)數據庫廠商不必多說,既有相應的能力建設,也有一定的客戶基礎,推出相關產品是必然。一些在AI領域積淀已久的科技大廠,如谷歌、微軟、Meta、百度等大廠,都有向量數據庫的技術積累,也都可以向外輸出相關能力和產品。

除了這些常規(guī)面孔,向量數據庫市場也吸引了新的參與者。

作為這一輪大模型投資熱和創(chuàng)業(yè)熱的主要目標之一,向量數據庫領域誕生了不少創(chuàng)新創(chuàng)業(yè)公司。比如AI創(chuàng)業(yè)新秀Pinecone就是閉源的領跑者,憑借良好的開箱即用的產品體驗,獲得了非常大的增長,B輪估值達到7.5億美元。其他競爭者大多建立在開源項目的基礎上。

圖片

不過,作為創(chuàng)業(yè)公司,長期盈利能力還有待驗證。一個主要原因,是客戶大多是嘗鮮、實驗性質。

企業(yè)需要先將非結構化的私密數據,進行一個小的模型,進行向量化,產生一個向量的矩陣,再存儲到向量數據庫里,來供大模型學習和檢索。這個過程涉及大量的工程化,會耗費企業(yè)許多開發(fā)人員、時間成本,一開始可能會因為AI大模型很火而對向量數據庫產生興趣,但能否真正在業(yè)務中落地還是個未知數。因此,長期付費意愿還有較大的不確定性。

另一股積極參與的新勢力,就是公有云廠商。

不是所有企業(yè)都有能力自建大模型所需要的基礎設施,通過MaaS(模型即服務)業(yè)務來訓練應用大模型,是更靈活的選擇。此外,很多政企客戶往往會選擇公有云或行業(yè)云來滿足其業(yè)務需求,對云數據庫的關注度和接受度上升,而這些用戶在探索大模型時,會傾向于以整體解決方案的形式來交付,這就給了云廠商參與游戲的機會,同時也要求云廠商提供向量數據庫的全棧支持。

圖片

如今頭部云廠商基本建立了全生命周期AI化的向量數據庫。有數據顯示,企業(yè)原先接入一個大模型需要花1個月左右時間,使用某公有云的向量數據庫后,3天時間即可完成,極大降低了企業(yè)的接入成本。

更何況,前不久火山引擎、阿里云、百度智能云等都圍繞大模型API價格,打起了互相抄底的“價格戰(zhàn)”,意味著AI創(chuàng)新門檻的降低,而AI應用市場的用戶規(guī)模擴大,也會帶動向量數據庫的使用需求。

綜上,整個云AI市場的格局還在快速變化之中,風物長宜放眼量,AI Native的向量數據庫,前景仍然值得期待。

接下來,向量數據庫卷什么?

有人可能會問了,大模型開始卷價格,那向量數據庫市場正在卷什么?

需要注意的是,大模型降價是以云廠商為主,而零一萬物等創(chuàng)業(yè)公司已經明確表示會以技術創(chuàng)新為競爭力,而不會(與云廠商)對標價格。云廠商在AI基礎設施、商業(yè)生態(tài)、市場規(guī)模效應上的既定優(yōu)勢,確實也會表現在向量數據庫市場。

目前來看,公有云廠商有幾重特殊優(yōu)勢,或許會讓向量數據庫加速走向商業(yè)成功:

  1. 多元化部署。垂直行業(yè)大模型,數據都是私有機密的,客戶一般不愿意放到公有云上,這對一部分支持混合多云的云廠商是一大利好,通過私有部署、分布式、混合云等多種方案,打消行業(yè)客戶將數據放到云端的現實疑慮。

圖片

2.一體化AI能力。向量數據庫的火爆,本質是由AI驅動的,而AI Native時代的數據工程,還有許多復雜問題尚待解決,比如檢索效率,在處理大規(guī)模數據的并行任務時,保持快速響應時間是一個挑戰(zhàn),需要優(yōu)化索引結構和搜索算法;高負載下的系統(tǒng)穩(wěn)定性,需要確保數據庫系統(tǒng)具備高可用性和容錯能力,防止服務中斷;存儲海量的向量數據,成本效益比要進一步優(yōu)化……目前來看,云廠商具備從底層算力集群、Maas模型平臺到全棧工具鏈的AI能力,有望通過技術協(xié)同創(chuàng)新,持續(xù)優(yōu)化向量數據庫的性能和成本。

3.產業(yè)服務能力。各行業(yè)對AI與業(yè)務的結合熱情高漲,但大多還處于嘗試探索期,需要結合自身場景、AI應用、IT設施等多種因素試錯并迭代。這個過程中,隨叫隨到、幫助客戶及時解決問題的ToB服務能力,也是非?粗氐。深耕產業(yè)的公有云,有望降低很多企業(yè)在AI技術革命中的機會成本。

有人說,AI云市場越來越卷了,隨著大模型性能邊際效益不斷走低,云廠商不得不用低價換規(guī)模。但有句話:“東方不亮西方亮,黑了南方有北方。”只要公有云廠商在AI領域的產品陣營足夠龐大,用多元化綜合優(yōu)勢鎖定用戶,那么即使大模型收益下降,在商業(yè)回報上也不愁沒有回旋的余地。

從這個角度看,或許公有云市場下一個卷起來的,就是向量大模型。

       原文標題 : 大模型卷價格,向量數據庫“卷”什么?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號