音声入力、食わず嫌いしてないか?——個人的ツール選びポイント
AI駆動開発という言葉が流行り始めてからだいぶ経ち、 自然言語の入力機会が爆増 しました。
音声入力ツールが流行っているのを見て試しに使ってみたところ、AIと壁打ちする時のような長文入力だと 入力速度が上がりました 。
まだ使ったことない人に使ってほしいなという思いを込め、音声入力の メリット や ツール選びの基準 などを解説します。
※当初は全部のツールについて比較した表を書こうと思ったんですが諦めました。アップデートされてデメリットだった部分がなくなったり、新しいツールが出てきたりと情報の鮮度がすぐ落ちるためです。
## 音声入力のここがすごい
ベラベラ話していくだけ でプロンプトになります。
筆者はタイピング中に割と思考がとっ散らかりがちです。タイピングしながら 別のことを考えていたり 、誤字が気になって直してから次の文章を書こうとしたら 何を書こうとしたのか忘れたり 。
「音声入力だと一通り話してから修正」という流れが強制されるため、 その瞬間の考えを吐き出すのに向いてます 。
AIとの壁打ちのようなときは関数名無し&長文なので、「短時間でこんなに入力できるんだ」と実感しやすいです。
### 専門用語はどうか
専門用語は聞き取ってくれるやつもあればカタカナになるやつもあります。たいていのツールには辞書・置換機能があるのでそれ使えば問題ないです。
いくつか例を挙げておきます。
クロードコード→Claude CodeEngineX→nginx一周・イシュー→issue
## 音声入力の比較ポイント
ここからは各ツールの比較ポイントのまとめです。
### 筆者が使ったツール
筆者が使ったツールのうち、良かったやつの一覧を載せておきます。筆者がメインで使っているのはVoiceInkです。
※VoiceInkに関しては、この記事のリンク経由で購入すると筆者にちょっとだけ還元されます。値段は変わらないのでご安心を。
### 精度・モデル
音声入力で一番気になるのはやっぱり精度ですよね。ここはモデルによって変わります。
実際に使ってみると、モデルそのものの精度よりは、 「辞書・置換機能や句読点をいい感じに挿入してくれるかどうか」の方が要素としては大きかった です。
超主観ですが、変換の精度はどれもキーボード入力のtypoと同じぐらいでした。
じゃあ選ぶポイントは何かというと 「モデルが選べるのか」「クラウド・ローカルどっちか」 の2点です。
筆者はモデルが固定されているよりも自分で選べる方が好みです。
クラウドのモデルだと「利用者が多い時にエラーになるケース」があります。3分くらい喋った後にエラーで何も出力されなくてイラッっとしたことが何回かありました。なので筆者はローカルモデルのやつの方が好きです。
クラウドオンリーのツールを使う人は、フォールバックとしてローカルでも使える別のツールを用意しておくとストレスが無いです。
### 自動整形
これはツールによってあったりなかったり。
#### フィラーの削除
「えー」や「あー」のような考えている間に言っちゃう言葉(フィラー)を削除してくれる機能があるとありがたいです。
プロンプトに投げるとき(つまりAI向け)なら別にフィラーありでもいいのですが、Slackでの返信やプロンプトをあとから読み返すときに 人間が楽 です。
#### 句読点・改行の挿入
人間が読む前提なら句読点・改行の自動挿入も必要です(手動で入れるのは面倒)。
「てんと言ったら、に置換」か「そもそも自動でやってくれるか」は好みが分かれるところですね(筆者は自動でやってほしい派)。
#### 口調変更
口調はぶっちゃけ好みだとは思いますが筆者は重要視してます。
筆者はカジュアルな返信をしたい時はカジュアルなまま話し、丁寧に話したい時は丁寧に話すことで音声入力してます。つまり勝手に口調を変えてほしくないです。ただ、モデルや設定によっては勝手に全部丁寧な口調になってしまいます。
VoiceInkのOutput FormatやAI Enhancement、SuperwhisperのCustom Instructionsのように設定できるツールはあります。
### 辞書・置換機能
前述のとおり専門用語は聞き取れなかったりカタカナになってしまうので、辞書や置換機能は必須です。
だいたいのツールにあると思います。
### ショートカットキー
ショートカットキーはハンズフリーモード(一度押したら録音開始、再度押したら録音終了するモード)があるとめっちゃ楽です。だいたいのツールにあります。
押しっぱなしで喋るタイプだと地味に疲れます。「タイプしないことがメリットなのに結局指疲れるんだ」みたいな気持ちになります。
### 入力中の表示
SpokenlyやVoiceInkなどは、リアルタイム対応のモデルであればリアルタイムに文字起こしを表示してくれます。
リアルタイム表示は「あったらいいな」ぐらいの温度感です。
### 料金
買い切り・サブスク・無料のどのタイプなのか。これからめっちゃ進化しそうなので高めの買い切りは手をつけづらいです。
### 対応OS
Macだけのやつもあります。
## キーボード入力と音声入力の使い分け
音声入力を導入しても、すべての入力で音声入力を使っているわけではありません。
たとえばこのブログ。「最初にどういうことを書くか」というアイデア出しや「頭の中にすでに文章が浮かんでいるもの」は音声入力を使っています。一方で 短い文章 はキーボード入力です。
AI駆動開発でも同じで、壁打ちのような 長文を入力するときは音声入力 を使っています。一方で、関数名やファイル名などはキーボード操作です。これは入力・コピーする方が早い&正確だからです。
## 装飾系も音声入力させるのか
カギ括弧や太文字のためのアスタリスク挿入はやったりやらなかったり。
AIへの壁打ちだとカギ括弧無しで伝わるのでやりません。
一方でブログのように「人間が読むもの」「後から俯瞰して装飾するか判断すべきもの」は、後から装飾 してます。
## おすすめも一応
GensparkユーザーならGenspark Speakly、完全無料がいいならAmical、有料でもいいけどコスパ重視ならVoiceInkです。
## テスト用の文章
最後に、 実際に音声入力ツール使ってみるときに試してほしい文章 を載せておきました。インストールしたときに「こんな感じか〜」というのを体験したり、自分で比較する用に使ってみてください。AIに投げるプロンプトを想定し、喋るそれっぽい内容にしました。
えー、添付したこのGitHubのissue見てほしいんだけど、あのーコメント欄にいくつか議論があって、現状の問題点がちょっと分かりづらい状態なんだよね。
で、あーそれを一旦整理して、非エンジニアの人でも分かるようにまとめてほしい。できれば専門用語はなるべく減らして、何が起きてるのかっていうのと、何が問題なのかをシンプルに説明したい。あと、その内容をもとにして、今後どういう対応をするべきかっていうのも優先度つきでまとめたい確認ポイントは次の4つ。
- 「指示」に勝手に答えない で文字起こしだけになっている
- 「えー」や「あのー」といった フィラーを削除 してくれる
- (好み)いい感じに句読点入れてくれる
- (好み)
GitHub・issueがどうなるか
### 実際の入力される例
たとえば、superwhisperで日本語のデフォルト設定だと次のように「あまり句読点を入れず、改行もなく読みづらい」状態です。
# superwhisper 日本語のデフォルト添付したgithubのイシュー見てほしいんだけど コメント欄にいくつか議論があって現状の問題点がちょっとわかりづらい状態なんだよねで、それを一旦整理して非エンジニアの人でも分かるようにまとめてほしいできれば専門用語はなるべく減らして何が起きているのかというのと何が問題なのかをシンプルに説明したいあとその内容をもとにして今後どういう対応するべきかというのも優先度付きでまとめたい設定を弄ると読みやすい形に整形してから入力されます。
# superwhisper カスタムモデル添付したGitHubの2週間分を見てほしいんだけど、コメント欄にいくつか議論があって、現状の問題点がちょっと分かりづらい状態なんだよね。それを一旦整理して、非エンジニアの人でも分かるようにまとめてほしい。できれば専門用語はなるべく減らして、何が起きているのかというのと、何が問題なのかをシンプルに説明したい。あと、その内容をもとにして今後どういう対応をするべきかというのも、優先度付きでまとめたい。こんな風に、設定によってかなり変わります。
音声入力を使ってみたときに「全然駄目だな」となる前に 設定をよく見てみてください 。
以上、音声入力のあれこれについてでした。冒頭のとおりツールの比較表を書く予定だったのか諦めたので、それ以外の部分を書き上げて供養しました。