OpenAI 推出全新的 GPT-4o 模型

OpenAI 推出全新的 GPT-4o 模型

OpenAI 在今年春季發表會上宣布推出全新的 GPT-4o 模型,其中的o代表「omni」也就是全能的意思,此模型能夠即時處理文字、聲音、影像及影片輸入,並生成對應的輸出內容,大幅提升人類與 AI 互動的自然性。

此外,GPT-4o 具備快速反應,以往透過 GPT-3.5 或 GPT-4 語音模式與 ChatGPT 對話時,經常遇到延遲較長且訊息損失的問題,而 GPT-4o 通過端到端訓練的單一模型,同時處理文字、影像和聲音,提升了反應速度和訊息保留能力,為使用者帶來更流暢和精確的互動體驗。

▼ 像是可以透過 GPT-4o 模型來進行剪刀石頭布的遊戲。

▼ 甚至可以透過 GPT-4o 模型讓兩個 AI 一起互動唱歌。

GPT-4o 模型開放免費使用,但是會有使用次數的限制,需要更多的次數就必須要訂閱 ChatGPT Plus,此外未來幾週也會針對 ChatGPT Plus 提供新版語音服務 GPT-4o alpha。

GPT-4o 重點整理

主要功能

  • GPT-4o 能夠處理文字、聲音、影像和影片輸入,並生成文字、聲音和影像輸出。
  • 聲音輸入的反應時間最快可達 232 毫秒,平均反應時間為 320 毫秒。
  • 影像和聲音理解方面相較於現有模型有顯著改進。
  • GPT-4o 在影像和聲音理解方面特別出色。
  • 英語文字和程式碼上的表現與 GPT-4 Turbo 的效能相等,非英語文字上的效能有顯著提高。
  • API 的速度也更快,成本降低了 50%。
  • API 使用費用比 GPT-4 Turbo 便宜 50%。

安全性

  • 該模型經過嚴格的內外部評估,並將逐步推出多模態功能,同時持續改進以減少新風險。
  • 透過過濾訓練數據和後期訓練行為調整確保多模態處理的安全性。
  • 根據準備框架和自願承諾,對網路安全、CBRN、說服力和模型自主性進行了評估,風險不高於中等。
  • 70 多名外部專家參與紅隊合作,識別和降低風險。
  • 認識到GPT-4o的聲音模式存在各種新風險,將致力於技術基礎設施、通過事後訓練的可用性以及發布其他模式所需的安全性。
  • 推出時聲音輸出將僅限於一些預設的聲音選擇,並且將遵守現有的安全政策。

資料來源

相關文章
作者簡介
個人頭像照片
努力寫文中!