【財新網(wǎng)】3月21日夜間,騰訊正式推出自研強推理模型“混元T1”正式版。該模型早期版本此前曾在AI聊天機器人元寶APP上小范圍測試,2月中旬曾和DeepSeek R1一起在元寶APP上提供模型服務。此次正式發(fā)布,騰訊稱混元T1通過大規(guī)模強化學習,并結合數(shù)學、邏輯推理、科學和代碼等理科難題的專項優(yōu)化,進一步提升了推理能力。
混元T1是騰訊混元發(fā)布的第一款推理模型。推理模型是指模型在預訓練之后的階段采用強化學習、思維鏈的技術,進一步“訓練”提高模型處理復雜邏輯推理任務的能力?;煸獔F隊介紹,在模型后訓練階段,96.7%的算力投入到了強化學習訓練,重點圍繞純推理能力的提升以及對齊人類偏好的優(yōu)化。