每日經(jīng)濟(jì)新聞 2025-03-22 14:34:09
每經(jīng)記者|黃婉銀 每經(jīng)編輯|文多
3月21日,騰訊宣布推出自研深度思考模型“混元T1”正式版,并同步在騰訊云官網(wǎng)上線。
該模型以騰訊于3月初發(fā)布的“混元Turbo S”為基座打造,是一款能秒回、吐字快、擅長(zhǎng)超長(zhǎng)文處理的強(qiáng)推理模型。
通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)并結(jié)合專項(xiàng)優(yōu)化,混元T1正式版進(jìn)一步提升了推理能力。與此前已上線騰訊元寶的“混元T1-preview”模型相比,綜合效果明顯提升。
混元T1正式版沿用了混元Turbo S的創(chuàng)新架構(gòu),采用Hybrid-Mamba-Transformer融合模式。這是工業(yè)界首次將混合Mamba架構(gòu)無(wú)損應(yīng)用于超大型推理模型。
這一架構(gòu)有效降低了傳統(tǒng)Transformer結(jié)構(gòu)的計(jì)算復(fù)雜度,減少了KV-Cache(一種大模型推理性能優(yōu)化技術(shù))的內(nèi)存占用,從而顯著降低了訓(xùn)練和推理成本,讓混元T1實(shí)現(xiàn)首字秒出,吐字速度最快可達(dá)80tokens/s(Token意為處理文本的最小單元)。
目前,混元T1已在騰訊云官網(wǎng)上線,輸入價(jià)格為1元/每百萬(wàn)tokens,輸出價(jià)格為4元/百萬(wàn)tokens 。
封面圖片來(lái)源:每經(jīng)記者 張建 攝(資料圖)
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
四川外貿(mào)規(guī)模和主體“雙過(guò)萬(wàn)”,“川行天下”新一年支持政策發(fā)布
這場(chǎng)代表·局長(zhǎng)面對(duì)面,產(chǎn)業(yè)創(chuàng)新為何成為“主角”?
成都市政協(xié)委員、成都智元匯董事長(zhǎng)鄧波:成都地鐵可打造成為城市“AI超級(jí)充電寶”
專訪成都市政協(xié)委員、社治無(wú)憂智慧科技董事長(zhǎng)劉翔:小社區(qū)更需“AI治理”,要讓社區(qū)“敢用”“會(huì)用”人工智能
“確保每條意見(jiàn)都有的放矢、精準(zhǔn)有力”,四川人大研究提升審議意見(jiàn)質(zhì)量
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP