AI

Claude Code Voice Mode完全ガイド——音声でAIエージェントに指示を出すハンズフリー開発

Claude CodeのVoice Mode(音声入力)を徹底解説。Push-to-Talkによるハンズフリー開発、20言語対応の音声認識、キーバインドのカスタマイズ、トラブルシューティングまで実践的に紹介します。

2026年3月20日
Claude CodeVoice Mode音声入力Push-to-Talkハンズフリー
Claude Code Voice Mode完全ガイド——音声でAIエージェントに指示を出すハンズフリー開発

はじめに

Claude Codeを使って開発していると、こんな場面に遭遇したことはないでしょうか。

状況困りごと
長いプロンプトを入力タイピングに時間がかかり思考の流れが途切れる
コードを見ながら指示画面を見ながら両手でキーボードを叩くのが面倒
ペアプログラミング口頭で伝えた内容を改めてテキスト入力する二度手間

「頭の中にある指示をそのまま声で伝えられたら……」と思ったことがある方に朗報です。Claude Code Voice Modeを使えば、音声でAIエージェントに直接指示を出せます。

この記事を読み終わると、以下のことができるようになります。

  • Voice Modeの有効化と基本操作を習得できる
  • Push-to-Talkで音声入力を使いこなせる
  • 音声認識の言語設定をカスタマイズできる
  • トラブルシューティングの手順を理解できる

Voice Modeとは

Voice Modeは、Claude Codeに搭載されたPush-to-Talk方式の音声入力機能です。キーボードのスペースバーを長押しして話しかけ、離すとその内容がテキストに変換されて送信されます。

従来のテキスト入力と音声入力を自由に切り替えられるため、状況に応じて最適な入力方法を選べます。

対応言語

Voice Modeは20言語に対応しています。v2.1.69で10言語が追加され、現在は以下の言語をサポートしています。

グループ対応言語
東アジア日本語、中国語、韓国語
南アジアヒンディー語
西ヨーロッパ英語、フランス語、ドイツ語、スペイン語、ポルトガル語、イタリア語、オランダ語
北ヨーロッパデンマーク語、スウェーデン語、ノルウェー語
東ヨーロッパロシア語、ポーランド語、ウクライナ語、チェコ語
その他トルコ語、ギリシャ語

日本語にも対応しているため、日本語で自然に話しかけるだけでClaude Codeに指示を送れます。

ハンズオン: Voice Modeを有効にする

Voice Modeの有効化は非常にシンプルです。

セッション中に有効化する方法

Claude Codeのセッション中に、以下のコマンドを入力するだけです。

/voice

コマンドを実行すると、Voice Modeが有効になり、現在設定されている言語が表示されます。

起動時から自動で有効化する方法

毎回 /voice と入力するのが面倒な場合は、設定ファイルに記述しておくことで起動時から有効になります。

// ~/.claude/settings.json
{
  "voiceEnabled": true
}

この設定を追加しておけば、Claude Codeを起動するたびに自動的にVoice Modeが有効化されます。

基本操作

Voice Modeの操作はとてもシンプルです。覚えることは少ないので、すぐに使いこなせるでしょう。

操作方法
音声入力開始スペースバーを長押し
音声入力送信スペースバーを離す
Voice Mode ON/OFF/voice
言語設定/voice → 言語選択

基本的な流れは以下の通りです。

  1. スペースバーを長押しする(録音開始)
  2. マイクに向かって指示を話す
  3. スペースバーを離す(録音終了 → テキスト変換 → 送信)

トランシーバーのように「押している間だけ録音される」仕組みなので、意図しない音声が送信されてしまう心配がありません。

Push-to-Talkキーバインドのカスタマイズ

デフォルトではスペースバーが音声入力のトリガーキーですが、v2.1.71からキーバインドをカスタマイズできるようになりました。

スペースバーだとテキスト入力時に誤って音声入力が起動してしまう場合は、別のキーに変更できます。

// ~/.claude/keybindings.json
{
  "voice:pushToTalk": "ctrl+space"
}

上記の例では Ctrl + Space に変更しています。自分の作業スタイルに合ったキーを設定しましょう。

言語設定

Voice Modeの音声認識言語は設定ファイルで指定できます。

// ~/.claude/settings.json
{
  "voiceLanguage": "ja"
}

"ja" を指定すると日本語の音声認識が有効になります。英語で指示を出したい場合は "en" に変更してください。

言語設定に関する注意点は以下の通りです。

  • /voice で有効化した際に、現在の言語設定が表示されます
  • サポートされていない言語コードを設定した場合は警告が表示されます
  • 設定を変更したら、Voice Modeを再起動することで反映されます

音声入力のコツ

音声認識の精度を最大限に引き出すためのコツを紹介します。

1. 明確に発音する

コード固有の用語(classNameuseStateuseEffect など)は、ゆっくり明確に発音しましょう。普段の会話よりも少しだけ意識して発音すると認識精度が上がります。

2. 短いフレーズで分ける

長い指示を一度に話すよりも、短いフレーズに分けて複数回入力するほうが正確に認識されます。

// 良い例(短く分ける)
「UserProfileコンポーネントを作成して」
「propsにnameとemailを追加して」
「Tailwind CSSでスタイリングして」

// 避けたい例(一度に長く話す)
「UserProfileコンポーネントを作成してpropsにnameとemailを追加してTailwind CSSでスタイリングして」

3. 技術用語の認識精度

v2.1.72のアップデートで、リポジトリ名や開発用語の認識精度が向上しています。ReactNext.jsTypeScript といった技術用語はそのまま英語で発音するのがおすすめです。

4. 送信前の修正

音声入力のテキストは送信前に画面に表示されます。誤認識があった場合は、送信前にテキストを修正できるので安心して使えます。

トラブルシューティング

Voice Modeで問題が発生した場合は、以下の表を参考にしてください。多くの問題はバージョンアップデートで修正済みです。

問題解決策
Voice Modeが起動しないmacOSのマイク権限を確認(v2.1.74修正)
WebSocket接続エラーv2.1.80でCloudflare TLS検出問題修正済み
Windowsで動作しないnpm版のWindows対応(v2.1.76修正済み)
WSL2で使えないWSLg対応(v2.1.78修正済み)
音声が認識されないPush-to-Talk中に十分な音量で話す
ダイアログ表示中に無効v2.1.76で修正済み(権限ダイアログ中のキー入力問題)

macOSでのマイク権限の確認手順

macOSでVoice Modeが起動しない場合は、ターミナルアプリにマイクのアクセス権限が付与されているか確認してください。

  1. システム設定プライバシーとセキュリティマイク を開く
  2. 使用しているターミナルアプリ(Terminal.app、iTerm2、Warp など)にチェックが入っているか確認
  3. チェックが入っていない場合はオンにして、ターミナルを再起動する

バージョンの確認とアップデート

問題が解決しない場合は、Claude Codeのバージョンを最新に更新してみてください。

# 現在のバージョンを確認
claude --version

# 最新版にアップデート
npm update -g @anthropic-ai/claude-code

まとめ

Claude Code Voice Modeは、AIエージェントとのやり取りを音声で行える画期的な機能です。

Voice Modeのメリット

  • 思考の流れを止めない: 考えたことをそのまま声で伝えられる
  • ハンズフリー開発: コードを見ながら音声で指示を出せる
  • 多言語対応: 日本語を含む20言語で利用可能
  • 柔軟なカスタマイズ: キーバインドや言語設定を自由に変更可能

日本語での音声入力のポイント

  • 技術用語は英語のまま発音するのが認識精度の面で有利です
  • 短いフレーズで区切って入力すると精度が向上します
  • 送信前にテキストを確認・修正できるので、まずは気軽に試してみましょう

今後の改善に期待すること

Voice Modeは積極的にアップデートが続けられており、v2.1.69からv2.1.80の間だけでも多くの改善が行われました。今後は音声認識精度のさらなる向上や、対応言語の追加、音声コマンドによる操作の拡充などが期待されます。

次のアクション

まずは /voice コマンドを実行して、Voice Modeを体験してみてください。最初は短い指示から始めて、徐々に音声入力に慣れていくのがおすすめです。タイピングと音声入力を状況に応じて使い分けることで、開発効率が一段と向上するはずです。