genai / news / / VentureBeat
人工智慧公司 OpenAI 發表了一份關於新語言模型的指南,該模型禁止提及類似小妖精、小鬼、浣熊、惡棍、巨人和鴿子等生物。
OpenAI 證實,GPT-5.5 在使用強化學習與人工回饋 (RLHF) 過程中,其「惡魔」的偏好,源於一個已停止使用的「 nerdy 」(愛冒險、不拘一格)的個性設定。
重點
- 在「 nerdy 」的形象中,使用富有創意的比喻,促使了以生物為主題的語言在整個模型中廣泛應用。
- OpenAI 為了應對問題,不得不實施一個硬編碼的系統提示,以阻止與「小妖精」相關的隱喻。
- OpenAI 發表了一段指令碼,允許開發者移除抑制功能,並恢復使用生物的隱喻。
- 這次事件促使 OpenAI 提前開發用於深入分析行為模式的工具,以為 GPT-6 的發布做好準備。
相關公司
由 Newsio 自 VentureBeat 摘要整理。 摘要方式說明 →