OpenAI 發表 GPT-4o：多模態 AI 模型引領人機互動新紀元

在 2024 年 5 月 13 日的發表會上，OpenAI 推出了全新的多模態 AI 模型——GPT-4o。這個模型在 ChatGPT 的自然對話和即時回應能力方面帶來了重大突破。GPT-4o 能處理文字、圖像和音訊輸入，並能即時產生對應的文字、音訊和圖像輸出，提供了更自然流暢的人機互動體驗。

核心特點

多模態輸入與輸出
GPT-4o 支援文字、圖像和音訊的任意組合輸入，並能產生相應的輸出。例如，你可以向 GPT-4o 提供圖片或語音輸入，它能即時解析並回應。

高速回應
在處理語音輸入時，GPT-4o 的最快回應時間僅為 232 毫秒，平均回應時間為 320 毫秒，幾乎達到人類的反應速度。

改進的理解與生成能力
GPT-4o 在英語文字處理和程式碼編輯方面的性能媲美 GPT-4 Turbo，在處理非英語文字時也有顯著提升。單一神經網路架構使得模型在處理多模態輸入和輸出時更加高效。

即時互動與情感捕捉
GPT-4o 能即時回應人類語音輸入，並捕捉並回應用戶的情感。例如，當使用者表現出焦慮時，GPT-4o 能適時給予安慰。

高效能與低成本
GPT-4o 的運行速度比 GPT-4 Turbo 快兩倍，頻寬限制提高五倍，且成本僅為其一半。

跨平台應用
OpenAI 推出了適用於 Mac 的桌面版應用程式，Windows 版本也計劃於今年稍晚推出。這些應用程式提供更具互動性的主畫面和訊息輸入設計，並允許用戶免費訪問 GPT Store。

OpenAI 執行長 Sam Altman 表示，GPT-4o 將逐步向所有 ChatGPT 用戶開放，包括免費版本，但語音模式的 Alpha 版僅限於 ChatGPT Plus 用戶。未來，GPT-4o 將能更好地滿足不同用戶的需求，提供更加個性化和高效的服務。

同時，OpenAI 強調了 GPT-4o 的安全性問題。根據其整備度框架和人類評估，新模型在網路安全、CBRN 威脅、誘騙能力和模型自主能力方面仍保持在中度以下。這些措施旨在減少可能的社會心理風險、偏見和假訊息風險。

GPT-4o 的推出標誌著 OpenAI 在人工智慧領域的又一次重大進步。這款全新的多模態 AI 模型，不僅提升了 ChatGPT 的對話能力，還為未來的人機互動帶來更多可能性。隨著技術的進一步發展和完善，GPT-4o 將成為 AI 領域的一顆明珠，帶領我們進入一個更加智能和互聯的世界。

欲了解更多詳情，請參考 OpenAI 官方網站。