在 2024 年 5 月 13 日的發表會上,OpenAI 推出了全新的多模態 AI 模型——GPT-4o。這個模型在 ChatGPT 的自然對話和即時回應能力方面帶來了重大突破。GPT-4o 能處理文字、圖像和音訊輸入,並能即時產生對應的文字、音訊和圖像輸出,提供了更自然流暢的人機互動體驗。
核心特點
多模態輸入與輸出
GPT-4o 支援文字、圖像和音訊的任意組合輸入,並能產生相應的輸出。例如,你可以向 GPT-4o 提供圖片或語音輸入,它能即時解析並回應。
高速回應
在處理語音輸入時,GPT-4o 的最快回應時間僅為 232 毫秒,平均回應時間為 320 毫秒,幾乎達到人類的反應速度。
改進的理解與生成能力
GPT-4o 在英語文字處理和程式碼編輯方面的性能媲美 GPT-4 Turbo,在處理非英語文字時也有顯著提升。單一神經網路架構使得模型在處理多模態輸入和輸出時更加高效。
技術亮點與應用場景
即時互動與情感捕捉
GPT-4o 能即時回應人類語音輸入,並捕捉並回應用戶的情感。例如,當使用者表現出焦慮時,GPT-4o 能適時給予安慰。
高效能與低成本
GPT-4o 的運行速度比 GPT-4 Turbo 快兩倍,頻寬限制提高五倍,且成本僅為其一半。
跨平台應用
OpenAI 推出了適用於 Mac 的桌面版應用程式,Windows 版本也計劃於今年稍晚推出。這些應用程式提供更具互動性的主畫面和訊息輸入設計,並允許用戶免費訪問 GPT Store。
未來展望與挑戰
OpenAI 執行長 Sam Altman 表示,GPT-4o 將逐步向所有 ChatGPT 用戶開放,包括免費版本,但語音模式的 Alpha 版僅限於 ChatGPT Plus 用戶。未來,GPT-4o 將能更好地滿足不同用戶的需求,提供更加個性化和高效的服務。
同時,OpenAI 強調了 GPT-4o 的安全性問題。根據其整備度框架和人類評估,新模型在網路安全、CBRN 威脅、誘騙能力和模型自主能力方面仍保持在中度以下。這些措施旨在減少可能的社會心理風險、偏見和假訊息風險。
結語
GPT-4o 的推出標誌著 OpenAI 在人工智慧領域的又一次重大進步。這款全新的多模態 AI 模型,不僅提升了 ChatGPT 的對話能力,還為未來的人機互動帶來更多可能性。隨著技術的進一步發展和完善,GPT-4o 將成為 AI 領域的一顆明珠,帶領我們進入一個更加智能和互聯的世界。
欲了解更多詳情,請參考 OpenAI 官方網站。