[{"data":1,"prerenderedAt":350},["ShallowReactive",2],{"post-openai-voice-models-api":3,"blog-categories":154,"blog-sidebar-banners":349},{"post":4},{"id":5,"date":6,"date_gmt":7,"guid":8,"modified":10,"modified_gmt":11,"slug":12,"status":13,"type":14,"link":15,"title":16,"content":18,"excerpt":21,"author":23,"featured_media":24,"comment_status":25,"ping_status":26,"sticky":20,"template":27,"format":28,"meta":29,"categories":31,"tags":33,"acf":34,"aioseo_notices":35,"_links":36,"_embedded":78},636,"2026-05-11T00:00:00","2026-05-10T15:00:00",{"rendered":9},"https://blog.cloco.co.jp/?p=636","2026-05-11T18:07:38","2026-05-11T09:07:38","openai-voice-models-api","publish","post","https://blog.cloco.co.jp/openai-voice-models-api/",{"rendered":17},"OpenAIが音声AIを3つに分解。新しいリアルタイム音声モデルがAPIで使えるようになりました",{"rendered":19,"protected":20},"\n\u003Cp>OpenAIが2026年5月7日、3つの新しいリアルタイム音声モデルをAPIで提供開始しました！\u003Cbr>リアルタイムAPIの中で、会話・翻訳・文字起こしという用途別の専門モデルラインナップが拡充された形ですね。\u003Cbr>128Kトークンのコンテキストウィンドウにも対応していて、長時間の音声会話もカバーできるようになっています。\u003C/p>\n\n\n\n\u003Chr class=\"wp-block-separator has-alpha-channel-opacity\"/>\n\n\n\n\u003Cdiv id=\"ez-toc-container\" class=\"ez-toc-v2_0_62 counter-hierarchy ez-toc-counter ez-toc-custom ez-toc-container-direction\">\n\u003Cdiv class=\"ez-toc-title-container\">\n\u003Cp class=\"ez-toc-title \" >目次\u003C/p>\n\u003Cspan class=\"ez-toc-title-toggle\">\u003Ca href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Toggle Table of Content\">\u003Cspan class=\"ez-toc-js-icon-con\">\u003Cspan class=\"\">\u003Cspan class=\"eztoc-hide\" style=\"display:none;\">Toggle\u003C/span>\u003Cspan class=\"ez-toc-icon-toggle-span\">\u003Csvg style=\"fill: #424242;color:#424242\" xmlns=\"http://www.w3.org/2000/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\">\u003Cpath d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\">\u003C/path>\u003C/svg>\u003Csvg style=\"fill: #424242;color:#424242\" class=\"arrow-unsorted-368013\" xmlns=\"http://www.w3.org/2000/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\">\u003Cpath d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"/>\u003C/svg>\u003C/span>\u003C/span>\u003C/span>\u003C/a>\u003C/span>\u003C/div>\n\u003Cnav>\u003Cul class='ez-toc-list ez-toc-list-level-1 ' >\u003Cli class='ez-toc-page-1 ez-toc-heading-level-2'>\u003Ca class=\"ez-toc-link ez-toc-heading-1\" href=\"https://blog.cloco.co.jp/openai-voice-models-api/#3%E8%A1%8C%E3%81%A7%E6%8A%BC%E3%81%95%E3%81%88%E3%82%8B\" title=\"3行で押さえる\">3行で押さえる\u003C/a>\u003C/li>\u003Cli class='ez-toc-page-1 ez-toc-heading-level-2'>\u003Ca class=\"ez-toc-link ez-toc-heading-2\" href=\"https://blog.cloco.co.jp/openai-voice-models-api/#%E9%9F%B3%E5%A3%B0AI%E3%81%A3%E3%81%A6%E3%80%81%E4%BB%8A%E3%81%A9%E3%81%86%E3%81%AA%E3%81%A3%E3%81%A6%E3%82%8B%E3%81%AE%EF%BC%9F\" title=\"音声AIって、今どうなってるの？\">音声AIって、今どうなってるの？\u003C/a>\u003C/li>\u003Cli class='ez-toc-page-1 ez-toc-heading-level-2'>\u003Ca class=\"ez-toc-link ez-toc-heading-3\" href=\"https://blog.cloco.co.jp/openai-voice-models-api/#3%E3%81%A4%E3%81%AE%E3%83%A2%E3%83%87%E3%83%AB%E3%80%81%E4%BD%95%E3%81%8C%E9%81%95%E3%81%86%E3%81%AE%EF%BC%9F\" title=\"3つのモデル、何が違うの？\">3つのモデル、何が違うの？\u003C/a>\u003C/li>\u003Cli class='ez-toc-page-1 ez-toc-heading-level-2'>\u003Ca class=\"ez-toc-link ez-toc-heading-4\" href=\"https://blog.cloco.co.jp/openai-voice-models-api/#%E4%BD%95%E3%81%8C%E3%81%A7%E3%81%8D%E3%82%8B%E3%82%88%E3%81%86%E3%81%AB%E3%81%AA%E3%82%8B%E3%81%AE%EF%BC%9F_%E2%80%95_%E6%B4%BB%E7%94%A8%E3%82%A4%E3%83%A1%E3%83%BC%E3%82%B8\" title=\"何ができるようになるの？ ― 活用イメージ\">何ができるようになるの？ ― 活用イメージ\u003C/a>\u003C/li>\u003Cli class='ez-toc-page-1 ez-toc-heading-level-2'>\u003Ca class=\"ez-toc-link ez-toc-heading-5\" href=\"https://blog.cloco.co.jp/openai-voice-models-api/#%E9%96%8B%E7%99%BA%E8%80%85%E7%9B%AE%E7%B7%9A%E3%81%A7%E6%B0%97%E3%81%AB%E3%81%AA%E3%82%8B%E3%83%9D%E3%82%A4%E3%83%B3%E3%83%88\" title=\"開発者目線で気になるポイント\">開発者目線で気になるポイント\u003C/a>\u003C/li>\u003Cli class='ez-toc-page-1 ez-toc-heading-level-2'>\u003Ca class=\"ez-toc-link ez-toc-heading-6\" href=\"https://blog.cloco.co.jp/openai-voice-models-api/#%E3%81%BE%E3%81%A8%E3%82%81\" title=\"まとめ\">まとめ\u003C/a>\u003C/li>\u003Cli class='ez-toc-page-1 ez-toc-heading-level-2'>\u003Ca class=\"ez-toc-link ez-toc-heading-7\" href=\"https://blog.cloco.co.jp/openai-voice-models-api/#%E3%82%88%E3%81%8F%E3%81%82%E3%82%8B%E8%B3%AA%E5%95%8F\" title=\"よくある質問\">よくある質問\u003C/a>\u003C/li>\u003Cli class='ez-toc-page-1 ez-toc-heading-level-2'>\u003Ca class=\"ez-toc-link ez-toc-heading-8\" href=\"https://blog.cloco.co.jp/openai-voice-models-api/#%E3%81%8A%E6%B0%97%E8%BB%BD%E3%81%AB%E3%81%94%E7%9B%B8%E8%AB%87%E3%81%8F%E3%81%A0%E3%81%95%E3%81%84\" title=\"お気軽にご相談ください\">お気軽にご相談ください\u003C/a>\u003C/li>\u003Cli class='ez-toc-page-1 ez-toc-heading-level-2'>\u003Ca class=\"ez-toc-link ez-toc-heading-9\" href=\"https://blog.cloco.co.jp/openai-voice-models-api/#%E5%8F%82%E8%80%83%E6%83%85%E5%A0%B1\" title=\"参考情報\">参考情報\u003C/a>\u003C/li>\u003C/ul>\u003C/nav>\u003C/div>\n\u003Ch2 class=\"wp-block-heading\">\u003Cspan class=\"ez-toc-section\" id=\"3%E8%A1%8C%E3%81%A7%E6%8A%BC%E3%81%95%E3%81%88%E3%82%8B\">\u003C/span>3行で押さえる\u003Cspan class=\"ez-toc-section-end\">\u003C/span>\u003C/h2>\n\n\n\n\u003Cul class=\"wp-block-list\">\n\u003Cli>OpenAIが音声AIを「1つのモデル」から「3つの専門モデル」に分解し、APIで提供開始\u003C/li>\n\n\n\n\u003Cli>会話・翻訳・文字起こしがそれぞれ独立した形で使えるようになった\u003C/li>\n\n\n\n\u003Cli>128Kトークン対応で長時間の音声セッションもサポート\u003C/li>\n\u003C/ul>\n\n\n\n\u003Chr class=\"wp-block-separator has-alpha-channel-opacity\"/>\n\n\n\n\u003Ch2 class=\"wp-block-heading\">\u003Cspan class=\"ez-toc-section\" id=\"%E9%9F%B3%E5%A3%B0AI%E3%81%A3%E3%81%A6%E3%80%81%E4%BB%8A%E3%81%A9%E3%81%86%E3%81%AA%E3%81%A3%E3%81%A6%E3%82%8B%E3%81%AE%EF%BC%9F\">\u003C/span>音声AIって、今どうなってるの？\u003Cspan class=\"ez-toc-section-end\">\u003C/span>\u003C/h2>\n\n\n\n\u003Cp>まず少し背景の話をしますね。\u003C/p>\n\n\n\n\u003Cp>これまでの音声AIって、会話も翻訳も文字起こしも全部ひとつのモデルが一手に引き受ける設計だったんですよね。\u003Cbr>いわば「なんでもこなすオールラウンダー」です。一見便利そうに聞こえるんですが、実はここに問題があって。\u003C/p>\n\n\n\n\u003Cp>オールラウンダーってどのタスクに対しても「そこそこ」の精度しか出せないことが多いんですよ。\u003Cbr>翻訳に特化したモデル、文字起こしに特化したモデルに比べると、どうしても見劣りしてしまう場面が出てきます。\u003Cbr>それに、「会話の精度を上げたい」と思ってモデルを改善しようとしても、翻訳や文字起こし性能に影響が出てしまうリスクもある。\u003Cbr>全部つながってるから、一か所いじると別の場所が揺れる、という感じです。\u003C/p>\n\n\n\n\u003Cp>「全部入り」の音声AIには、こういうトレードオフがずっとついて回っていたんです。\u003C/p>\n\n\n\n\u003Cp>今回OpenAIが発表したのは、そこへの答えのひとつです。\u003Cbr>会話・翻訳・文字起こし、それぞれのタスクに専門モデルを用意して、それを組み合わせて使う設計に切り替えた。\u003Cbr>ざっくりいうと、「ひとりの万能選手」から「3人の専門家チーム」にシフトしたイメージですね。\u003C/p>\n\n\n\n\u003Chr class=\"wp-block-separator has-alpha-channel-opacity\"/>\n\n\n\n\u003Ch2 class=\"wp-block-heading\">\u003Cspan class=\"ez-toc-section\" id=\"3%E3%81%A4%E3%81%AE%E3%83%A2%E3%83%87%E3%83%AB%E3%80%81%E4%BD%95%E3%81%8C%E9%81%95%E3%81%86%E3%81%AE%EF%BC%9F\">\u003C/span>3つのモデル、何が違うの？\u003Cspan class=\"ez-toc-section-end\">\u003C/span>\u003C/h2>\n\n\n\n\u003Cfigure class=\"wp-block-image size-full\">\u003Cimg fetchpriority=\"high\" decoding=\"async\" width=\"1693\" height=\"929\" src=\"https://blog.cloco.co.jp/wp-content/uploads/2026/05/openai-realtime-models-comparison.png\" alt=\"\" class=\"wp-image-647\"/>\u003C/figure>\n\n\n\n\u003Cp>今回APIで提供されたのは以下の3モデルです。\u003C/p>\n\n\n\n\u003Ch3 class=\"wp-block-heading\">GPT-Realtime-2（会話モデル）\u003C/h3>\n\n\n\n\u003Cp>高い推論能力を持つ、リアルタイム音声会話向けのモデル。複雑なリクエストを処理しながら、自然な会話の流れをキープできる設計になっています。\u003C/p>\n\n\n\n\u003Cp>「高い推論能力」って具体的にどういうことかというと、たとえば「先週の打ち合わせの内容をふまえて、今日の議題への対応方針を考えて」みたいな、文脈を丸ごと把握したうえで答えてくれる感じ。\u003Cbr>音声で話しながら複雑な依頼をしても会話が途切れずに続くイメージですね。\u003C/p>\n\n\n\n\u003Ch3 class=\"wp-block-heading\">GPT-Realtime-Translate（翻訳モデル）\u003C/h3>\n\n\n\n\u003Cp>70以上の入力言語から13の出力言語へのリアルタイム翻訳ができるモデルですね。\u003Cbr>「話者のペースで翻訳する」という設計が特徴で、相手が話しているスピードに合わせて訳出していく動きが想定されています！\u003C/p>\n\n\n\n\u003Cp>会議やプレゼンで「話している内容をその場で別の言語に変換したい」という場面にフィットしそうですよね。\u003C/p>\n\n\n\n\u003Ch3 class=\"wp-block-heading\">GPT-Realtime-Whisper（文字起こしモデル）\u003C/h3>\n\n\n\n\u003Cp>音声をテキストに変換することに特化した新モデルです。\u003Cbr>Realtime API向けに新たに提供される文字起こしモデルとして位置づけられています。\u003C/p>\n\n\n\n\u003Cp>文字起こし単体に集中できるので、たとえば会議録音から議事録を自動生成するような用途では、会話モデルより精度面で使いやすくなると見られています。\u003C/p>\n\n\n\n\u003Chr class=\"wp-block-separator has-alpha-channel-opacity\"/>\n\n\n\n\u003Ch2 class=\"wp-block-heading\">\u003Cspan class=\"ez-toc-section\" id=\"%E4%BD%95%E3%81%8C%E3%81%A7%E3%81%8D%E3%82%8B%E3%82%88%E3%81%86%E3%81%AB%E3%81%AA%E3%82%8B%E3%81%AE%EF%BC%9F_%E2%80%95_%E6%B4%BB%E7%94%A8%E3%82%A4%E3%83%A1%E3%83%BC%E3%82%B8\">\u003C/span>何ができるようになるの？ ― 活用イメージ\u003Cspan class=\"ez-toc-section-end\">\u003C/span>\u003C/h2>\n\n\n\n\u003Cfigure class=\"wp-block-image size-full\">\u003Cimg decoding=\"async\" width=\"1693\" height=\"929\" src=\"https://blog.cloco.co.jp/wp-content/uploads/2026/05/voice-model-use-case-flow.png\" alt=\"\" class=\"wp-image-648\"/>\u003C/figure>\n\n\n\n\u003Cp>これらのモデルを組み合わせることでどんなことができそうでしょうか？\u003Cbr>公式からの発表をもとに整理しつつ活用アイデアもあわせて紹介しますね。\u003C/p>\n\n\n\n\u003Ch3 class=\"wp-block-heading\">公式が想定しているユースケース\u003C/h3>\n\n\n\n\u003Cp>エンタープライズ向けの音声エージェントが主なユースケースとして挙げられていますね。\u003Cbr>たとえば、ユーザーが音声で操作・質問できるカスタマーサービスエージェントや、コールセンター業務の一部を担うエージェントの構築などが想定されています。\u003Cbr>また、教育プラットフォームでの音声対話学習、メディア・放送分野でのリアルタイム翻訳、クリエイタープラットフォームでの多言語コンテンツ配信といった用途も視野に入ってくると考えられています！\u003C/p>\n\n\n\n\u003Ch3 class=\"wp-block-heading\">活用アイデア（参考）\u003C/h3>\n\n\n\n\u003Cp>以下は一般的な用途として考えられる活用例です。\u003Cbr>まだ確定した事例ではなくモデルの仕様から想定できるアイデアとして参考にしてください。\u003C/p>\n\n\n\n\u003Cp>\u003Cstrong>多言語対応カスタマーサポートの自動化\u003C/strong>\u003Cbr>GPT-Realtime-Translateを軸にすることで、多言語対応のサポートエージェントが構築できそうなきがします！\u003Cbr>問い合わせ対応の言語切り替えを人手でまかなっていた部分をモデルに委ねるという活用が考えられますよね。\u003C/p>\n\n\n\n\u003Cp>\u003Cstrong>会議のリアルタイム翻訳＋議事録生成の組み合わせ\u003C/strong>\u003Cbr>翻訳モデルで会議の内容をリアルタイムに別言語へ変換しながら文字起こしモデルで音声テキスト化を並走させることで、「翻訳済みの議事録」を自動生成するという組み合わせもあり。\u003C/p>\n\n\n\n\u003Cp>\u003Cstrong>音声UIを持つアプリへの組み込み\u003C/strong>\u003Cbr>GPT-Realtime-2の会話能力と、Whisperモデルの高精度な文字起こしを組み合わせることで、音声操作ができるアプリのバックエンドとして活用できそうです。\u003C/p>\n\n\n\n\u003Chr class=\"wp-block-separator has-alpha-channel-opacity\"/>\n\n\n\n\u003Ch2 class=\"wp-block-heading\">\u003Cspan class=\"ez-toc-section\" id=\"%E9%96%8B%E7%99%BA%E8%80%85%E7%9B%AE%E7%B7%9A%E3%81%A7%E6%B0%97%E3%81%AB%E3%81%AA%E3%82%8B%E3%83%9D%E3%82%A4%E3%83%B3%E3%83%88\">\u003C/span>開発者目線で気になるポイント\u003Cspan class=\"ez-toc-section-end\">\u003C/span>\u003C/h2>\n\n\n\n\u003Ch3 class=\"wp-block-heading\">WebRTCによる低遅延への取り組み\u003C/h3>\n\n\n\n\u003Cp>今回の接続にはWebRTCを活用していて、低遅延とグローバルスケールを実現しています（openai.com/api/docs/guides/realtime-webrtc）。WebRTCというのはブラウザやアプリでリアルタイム通信を行うための技術基盤で音声や映像をほぼ遅延なく届けるためのプロトコルですね。\u003C/p>\n\n\n\n\u003Cp>WebRTCの活用によりグローバルスケールでの低遅延とシームレスな会話のターンテイキング（話者交代）を実現することをOpenAIは目指しているとされています。\u003Cbr>ターンテイキングというのは「相手が話し終わったタイミングで自分が話し始める」という、会話の自然な切り替わりのこと。\u003Cbr>これがうまく機能しないとAIが「話しかけたのに少し待たされる」「相手の発話が終わる前に返事が来る」という体験になってしまいますよね。\u003Cbr>そこを改善するのが今回の設計の目的のひとつです。\u003C/p>\n\n\n\n\u003Ch3 class=\"wp-block-heading\">128Kトークンで、どのくらいの会話に対応できるの？\u003C/h3>\n\n\n\n\u003Cp>128Kトークンという数字が出てくると、「それって何分くらいの会話なの？」と思いますよね。\u003C/p>\n\n\n\n\u003Cp>あくまで目安として考えてほしいんですが、一般的にテキストで1トークン≒日本語0.5〜1文字程度、英語では0.75単語程度の対応関係といわれています。\u003Cbr>音声の場合は変換後のテキスト量で計算されるため一概には言えませんが、かなり長い会話セッションを1つのコンテキストの中で扱えるスペックが確保されたと見ていいかなと思います。数十分規模の音声セッションをそのまま保持しながら対話を継続できる設計、という理解で問題ないかと！\u003C/p>\n\n\n\n\u003Cp>これは特に長時間にわたるサポート対応や、複数ターンの議論を前提とするエージェント設計において意味を持ってきそうですね。\u003C/p>\n\n\n\n\u003Ch3 class=\"wp-block-heading\">エコシステムへの統合とオーケストレーション設計\u003C/h3>\n\n\n\n\u003Cp>Realtime APIを通じてOpenAIの既存APIエコシステムに統合されていて、Agents SDKとの連携にも対応しています。\u003C/p>\n\n\n\n\u003Cp>個別タスクを専門モデルへ割り当てられるので、「翻訳が必要な場面ではGPT-Realtime-Translateを呼び出し、文字起こしが必要な場面ではGPT-Realtime-Whisperを使う」というようなオーケストレーション設計が組みやすくなりました。\u003Cbr>既存のOpenAI APIエコシステムと組み合わせながら構築できるのは、開発者にとって地味にうれしい変化ですよね。\u003C/p>\n\n\n\n\u003Ch3 class=\"wp-block-heading\">価格体系\u003C/h3>\n\n\n\n\u003Cp>各モデルの料金（公式ページより）はこんな感じです。\u003C/p>\n\n\n\n\u003Cul class=\"wp-block-list\">\n\u003Cli>\u003Cstrong>GPT-Realtime-2\u003C/strong>：入力 $32 / 100万トークン（キャッシュ済み入力 $0.40）、出力 $64 / 100万トークン\u003C/li>\n\n\n\n\u003Cli>\u003Cstrong>GPT-Realtime-Translate\u003C/strong>：$0.034 / 分\u003C/li>\n\n\n\n\u003Cli>\u003Cstrong>GPT-Realtime-Whisper\u003C/strong>：$0.017 / 分\u003C/li>\n\u003C/ul>\n\n\n\n\u003Cp>翻訳・文字起こしモデルは「分単位課金」、会話モデルは「トークン単位課金」という違いも押さえておくといいですよ。どちらをメインに使うかでコスト試算のしかたが変わってくるので。最新の料金は公式料金ページ（https://openai.com/api/pricing/）でご確認ください。\u003C/p>\n\n\n\n\u003Chr class=\"wp-block-separator has-alpha-channel-opacity\"/>\n\n\n\n\u003Ch2 class=\"wp-block-heading\">\u003Cspan class=\"ez-toc-section\" id=\"%E3%81%BE%E3%81%A8%E3%82%81\">\u003C/span>まとめ\u003Cspan class=\"ez-toc-section-end\">\u003C/span>\u003C/h2>\n\n\n\n\u003Cp>OpenAIの今回の発表は、リアルタイムAPIの中で用途別の専門モデルラインナップが拡充されたことを示すものですね。\u003C/p>\n\n\n\n\u003Cul class=\"wp-block-list\">\n\u003Cli>\u003Cstrong>GPT-Realtime-2\u003C/strong>：複雑な会話・推論が必要な場面向け\u003C/li>\n\n\n\n\u003Cli>\u003Cstrong>GPT-Realtime-Translate\u003C/strong>：70以上の入力言語から13の出力言語へのリアルタイム翻訳向け\u003C/li>\n\n\n\n\u003Cli>\u003Cstrong>GPT-Realtime-Whisper\u003C/strong>：精度重視の音声文字起こし向け\u003C/li>\n\u003C/ul>\n\n\n\n\u003Cp>それぞれを必要な場面で組み合わせる設計に変わったことで、開発者がより意図を持ってシステムを組み立てられる土台が整いましたね。\u003C/p>\n\n\n\n\u003Cp>音声UIの実装や多言語サポートを検討しているプロダクトにとっては、選択肢の幅が広がったタイミングですよね。APIドキュメントを確認しながら自分のユースケースにどのモデルが合うかをまず試してみてください。\u003C/p>\n\n\n\n\u003Chr class=\"wp-block-separator has-alpha-channel-opacity\"/>\n\n\n\n\u003Ch2 class=\"wp-block-heading\">\u003Cspan class=\"ez-toc-section\" id=\"%E3%82%88%E3%81%8F%E3%81%82%E3%82%8B%E8%B3%AA%E5%95%8F\">\u003C/span>よくある質問\u003Cspan class=\"ez-toc-section-end\">\u003C/span>\u003C/h2>\n\n\n\n\u003Ch3 class=\"wp-block-heading\">3つの音声モデルの違いは何ですか？\u003C/h3>\n\n\n\n\u003Cp>GPT-Realtime-2は高い推論能力を持つ会話モデル、GPT-Realtime-Translateは70以上の入力言語から13の出力言語へのリアルタイム翻訳モデル、GPT-Realtime-Whisperは音声テキスト変換に特化したモデルです。それぞれが独立したAPIとして提供されていて用途に応じて使い分けたり組み合わせたりできます。\u003C/p>\n\n\n\n\u003Ch3 class=\"wp-block-heading\">日本語には対応していますか？\u003C/h3>\n\n\n\n\u003Cp>入力言語（70以上）には日本語が含まれているとされていて公式デモでも日本語の例が使用されています。翻訳先（出力）の13言語に日本語が含まれるかはAPIドキュメント（developers.openai.com）でご確認ください。\u003C/p>\n\n\n\n\u003Ch3 class=\"wp-block-heading\">既存のOpenAI APIから使えますか？\u003C/h3>\n\n\n\n\u003Cp>はい、使えます。今回の音声モデルはRealtime APIを通じてOpenAIの既存APIエコシステムに統合されており、Agents SDKとの連携にも対応しています。既存のAPIアカウントや認証情報をそのまま使いながら新しいモデルにアクセスできるので、改めてセットアップし直す必要はないです。詳細はOpenAIの公式ドキュメントをご確認ください。\u003C/p>\n\n\n\n\u003Chr class=\"wp-block-separator has-alpha-channel-opacity\"/>\n\n\n\n\u003Ch2 class=\"wp-block-heading\">\u003Cspan class=\"ez-toc-section\" id=\"%E3%81%8A%E6%B0%97%E8%BB%BD%E3%81%AB%E3%81%94%E7%9B%B8%E8%AB%87%E3%81%8F%E3%81%A0%E3%81%95%E3%81%84\">\u003C/span>\u003Cstrong>\u003Cstrong>\u003Cstrong>お気軽にご相談ください\u003C/strong>\u003C/strong>\u003C/strong>\u003Cspan class=\"ez-toc-section-end\">\u003C/span>\u003C/h2>\n\n\n\n\u003Cp>AIを使った業務効率化、社内ツール開発、既存プロダクトへのAI機能追加、受託開発全般——上流の企画段階から実装・運用まで、まとめてご相談いただけます。\u003C/p>\n\n\n\n\u003Cp>「これってAIで解決できるの？」「どこから手をつければいい？」という入口のご相談大歓迎です。\u003Cbr>具体的な仕様が固まる前の壁打ちフェーズからぜひ\u003Ca href=\"/contact\" target=\"_blank\" rel=\"noopener\" title=\"\" class=\"broken_link\">お気軽にご相談ください。\u003C/a>\u003C/p>\n\n\n\n\u003Chr class=\"wp-block-separator has-alpha-channel-opacity\"/>\n\n\n\n\u003Ch2 class=\"wp-block-heading\">\u003Cspan class=\"ez-toc-section\" id=\"%E5%8F%82%E8%80%83%E6%83%85%E5%A0%B1\">\u003C/span>参考情報\u003Cspan class=\"ez-toc-section-end\">\u003C/span>\u003C/h2>\n\n\n\n\u003Cul class=\"wp-block-list\">\n\u003Cli>公式発表ページ：https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/\u003C/li>\n\n\n\n\u003Cli>Realtime APIドキュメント：https://developers.openai.com/api/docs/guides/realtime\u003C/li>\n\n\n\n\u003Cli>料金ページ：https://openai.com/api/pricing/\u003C/li>\n\u003C/ul>\n",false,{"rendered":22,"protected":20},"\u003Cp>OpenAIが2026年5月、音声AIを会話・翻訳・文字起こしの3専門モデルに分解しAPIで提供開始。128Kトークン対応でMCP連携も可能。開発者向けに活用方法を解説。\u003C/p>\n",13,646,"closed","open","","standard",{"om_disable_all_campaigns":20,"_monsterinsights_skip_tracking":20,"_monsterinsights_sitenote_active":20,"_monsterinsights_sitenote_note":27,"_monsterinsights_sitenote_category":30,"_themeisle_gutenberg_block_has_review":20,"footnotes":27},0,[32],9,[],[],[],{"self":37,"collection":40,"about":43,"author":46,"replies":50,"version-history":53,"predecessor-version":57,"wp:featuredmedia":61,"wp:attachment":64,"wp:term":67,"curies":74},[38],{"href":39},"https://blog.cloco.co.jp/wp-json/wp/v2/posts/636",[41],{"href":42},"https://blog.cloco.co.jp/wp-json/wp/v2/posts",[44],{"href":45},"https://blog.cloco.co.jp/wp-json/wp/v2/types/post",[47],{"embeddable":48,"href":49},true,"https://blog.cloco.co.jp/wp-json/wp/v2/users/13",[51],{"embeddable":48,"href":52},"https://blog.cloco.co.jp/wp-json/wp/v2/comments?post=636",[54],{"count":55,"href":56},6,"https://blog.cloco.co.jp/wp-json/wp/v2/posts/636/revisions",[58],{"id":59,"href":60},653,"https://blog.cloco.co.jp/wp-json/wp/v2/posts/636/revisions/653",[62],{"embeddable":48,"href":63},"https://blog.cloco.co.jp/wp-json/wp/v2/media/646",[65],{"href":66},"https://blog.cloco.co.jp/wp-json/wp/v2/media?parent=636",[68,71],{"taxonomy":69,"embeddable":48,"href":70},"category","https://blog.cloco.co.jp/wp-json/wp/v2/categories?post=636",{"taxonomy":72,"embeddable":48,"href":73},"post_tag","https://blog.cloco.co.jp/wp-json/wp/v2/tags?post=636",[75],{"name":76,"href":77,"templated":48},"wp","https://api.w.org/{rel}",{"author":79,"wp:featuredmedia":93,"wp:term":131},[80],{"id":23,"name":81,"url":27,"description":27,"link":82,"slug":83,"avatar_urls":84,"acf":86,"_links":87},"Yui","https://blog.cloco.co.jp/author/yui/","yui",{"24":85,"48":85,"96":85},"https://blog.cloco.co.jp/wp-content/uploads/2026/05/yui.png",[],{"self":88,"collection":90},[89],{"href":49},[91],{"href":92},"https://blog.cloco.co.jp/wp-json/wp/v2/users",[94],{"id":24,"date":95,"slug":96,"type":97,"link":98,"title":99,"author":100,"featured_media":30,"aioseo_notices":101,"acf":102,"caption":103,"alt_text":27,"media_type":104,"mime_type":105,"media_details":106,"source_url":115,"_links":116},"2026-05-11T17:20:40","openai-voice-models-api_hero","attachment","https://blog.cloco.co.jp/openai-voice-models-api/openai-voice-models-api_hero/",{"rendered":96},1,[],[],{"rendered":27},"image","image/png",{"width":107,"height":108,"file":109,"filesize":110,"sizes":111,"image_meta":112},1536,1024,"2026/05/openai-voice-models-api_hero.png",2487780,{},{"aperture":113,"credit":27,"camera":27,"caption":27,"created_timestamp":113,"copyright":27,"focal_length":113,"iso":113,"shutter_speed":113,"title":27,"orientation":113,"keywords":114},"0",[],"https://blog.cloco.co.jp/wp-content/uploads/2026/05/openai-voice-models-api_hero.png",{"self":117,"collection":119,"about":122,"author":125,"replies":128},[118],{"href":63},[120],{"href":121},"https://blog.cloco.co.jp/wp-json/wp/v2/media",[123],{"href":124},"https://blog.cloco.co.jp/wp-json/wp/v2/types/attachment",[126],{"embeddable":48,"href":127},"https://blog.cloco.co.jp/wp-json/wp/v2/users/1",[129],{"embeddable":48,"href":130},"https://blog.cloco.co.jp/wp-json/wp/v2/comments?post=646",[132,153],[133],{"id":32,"link":134,"name":135,"slug":136,"taxonomy":69,"acf":137,"_links":138},"https://blog.cloco.co.jp/category/it_industry_news/","業界最新情報","it_industry_news",[],{"self":139,"collection":142,"about":145,"wp:post_type":148,"curies":151},[140],{"href":141},"https://blog.cloco.co.jp/wp-json/wp/v2/categories/9",[143],{"href":144},"https://blog.cloco.co.jp/wp-json/wp/v2/categories",[146],{"href":147},"https://blog.cloco.co.jp/wp-json/wp/v2/taxonomies/category",[149],{"href":150},"https://blog.cloco.co.jp/wp-json/wp/v2/posts?categories=9",[152],{"name":76,"href":77,"templated":48},[],[155,175,194,215,235,255,276,296,315,335],{"id":23,"count":156,"description":27,"link":157,"name":158,"slug":159,"taxonomy":69,"parent":30,"meta":160,"acf":161,"_links":162},3,"https://blog.cloco.co.jp/category/dx/","DX","dx",[],[],{"self":163,"collection":166,"about":168,"wp:post_type":170,"curies":173},[164],{"href":165},"https://blog.cloco.co.jp/wp-json/wp/v2/categories/13",[167],{"href":144},[169],{"href":147},[171],{"href":172},"https://blog.cloco.co.jp/wp-json/wp/v2/posts?categories=13",[174],{"name":76,"href":77,"templated":48},{"id":55,"count":100,"description":27,"link":176,"name":177,"slug":178,"taxonomy":69,"parent":30,"meta":179,"acf":180,"_links":181},"https://blog.cloco.co.jp/category/qa/","QA","qa",[],[],{"self":182,"collection":185,"about":187,"wp:post_type":189,"curies":192},[183],{"href":184},"https://blog.cloco.co.jp/wp-json/wp/v2/categories/6",[186],{"href":144},[188],{"href":147},[190],{"href":191},"https://blog.cloco.co.jp/wp-json/wp/v2/posts?categories=6",[193],{"name":76,"href":77,"templated":48},{"id":195,"count":196,"description":27,"link":197,"name":198,"slug":199,"taxonomy":69,"parent":30,"meta":200,"acf":201,"_links":202},14,2,"https://blog.cloco.co.jp/category/web_app/","webアプリ","web_app",[],[],{"self":203,"collection":206,"about":208,"wp:post_type":210,"curies":213},[204],{"href":205},"https://blog.cloco.co.jp/wp-json/wp/v2/categories/14",[207],{"href":144},[209],{"href":147},[211],{"href":212},"https://blog.cloco.co.jp/wp-json/wp/v2/posts?categories=14",[214],{"name":76,"href":77,"templated":48},{"id":216,"count":156,"description":27,"link":217,"name":218,"slug":219,"taxonomy":69,"parent":30,"meta":220,"acf":221,"_links":222},10,"https://blog.cloco.co.jp/category/architect/","アーキテクト","architect",[],[],{"self":223,"collection":226,"about":228,"wp:post_type":230,"curies":233},[224],{"href":225},"https://blog.cloco.co.jp/wp-json/wp/v2/categories/10",[227],{"href":144},[229],{"href":147},[231],{"href":232},"https://blog.cloco.co.jp/wp-json/wp/v2/posts?categories=10",[234],{"name":76,"href":77,"templated":48},{"id":236,"count":196,"description":27,"link":237,"name":238,"slug":239,"taxonomy":69,"parent":30,"meta":240,"acf":241,"_links":242},4,"https://blog.cloco.co.jp/category/infra/","インフラ","infra",[],[],{"self":243,"collection":246,"about":248,"wp:post_type":250,"curies":253},[244],{"href":245},"https://blog.cloco.co.jp/wp-json/wp/v2/categories/4",[247],{"href":144},[249],{"href":147},[251],{"href":252},"https://blog.cloco.co.jp/wp-json/wp/v2/posts?categories=4",[254],{"name":76,"href":77,"templated":48},{"id":256,"count":257,"description":27,"link":258,"name":259,"slug":260,"taxonomy":69,"parent":30,"meta":261,"acf":262,"_links":263},12,8,"https://blog.cloco.co.jp/category/mobile_app/","スマホアプリ","mobile_app",[],[],{"self":264,"collection":267,"about":269,"wp:post_type":271,"curies":274},[265],{"href":266},"https://blog.cloco.co.jp/wp-json/wp/v2/categories/12",[268],{"href":144},[270],{"href":147},[272],{"href":273},"https://blog.cloco.co.jp/wp-json/wp/v2/posts?categories=12",[275],{"name":76,"href":77,"templated":48},{"id":277,"count":196,"description":27,"link":278,"name":279,"slug":280,"taxonomy":69,"parent":30,"meta":281,"acf":282,"_links":283},5,"https://blog.cloco.co.jp/category/design/","デザイン","design",[],[],{"self":284,"collection":287,"about":289,"wp:post_type":291,"curies":294},[285],{"href":286},"https://blog.cloco.co.jp/wp-json/wp/v2/categories/5",[288],{"href":144},[290],{"href":147},[292],{"href":293},"https://blog.cloco.co.jp/wp-json/wp/v2/posts?categories=5",[295],{"name":76,"href":77,"templated":48},{"id":156,"count":156,"description":27,"link":297,"name":298,"slug":299,"taxonomy":69,"parent":30,"meta":300,"acf":301,"_links":302},"https://blog.cloco.co.jp/category/project_management/","プロジェクトマネージメント","project_management",[],[],{"self":303,"collection":306,"about":308,"wp:post_type":310,"curies":313},[304],{"href":305},"https://blog.cloco.co.jp/wp-json/wp/v2/categories/3",[307],{"href":144},[309],{"href":147},[311],{"href":312},"https://blog.cloco.co.jp/wp-json/wp/v2/posts?categories=3",[314],{"name":76,"href":77,"templated":48},{"id":316,"count":236,"description":27,"link":317,"name":318,"slug":319,"taxonomy":69,"parent":30,"meta":320,"acf":321,"_links":322},11,"https://blog.cloco.co.jp/category/beginner/","初心者","beginner",[],[],{"self":323,"collection":326,"about":328,"wp:post_type":330,"curies":333},[324],{"href":325},"https://blog.cloco.co.jp/wp-json/wp/v2/categories/11",[327],{"href":144},[329],{"href":147},[331],{"href":332},"https://blog.cloco.co.jp/wp-json/wp/v2/posts?categories=11",[334],{"name":76,"href":77,"templated":48},{"id":32,"count":195,"description":27,"link":134,"name":135,"slug":136,"taxonomy":69,"parent":30,"meta":336,"acf":337,"_links":338},[],[],{"self":339,"collection":341,"about":343,"wp:post_type":345,"curies":347},[340],{"href":141},[342],{"href":144},[344],{"href":147},[346],{"href":150},[348],{"name":76,"href":77,"templated":48},[],1778654138404]