ByeType macOS デスクトップ版が登場——押して話す、離して貼り付け
Wei-Ren Lan
毎日タイピングに費やしている時間、実はその半分を節約できるとしたら?
メッセージの返信、メール作成、メモ取り、IDEでのコメント追加——私たちの思考速度は指の動きをはるかに超えています。macOS内蔵の音声入力?認識精度に限界があり、使用状況に応じたフォーマット調整もできません。サードパーティツール?音声をクラウドにアップロードするか、操作が煩雑かのどちらかです。
ByeType macOS デスクトップ版の目標はシンプルです:押して話す、離して貼り付け。すべてMac上で認識が完結し、音声がパソコンの外に出ることはありません。
目次
- コア機能
- 5つの音声認識エンジン
- AIスマート補正
- シーン認識スタイル
- リアルタイムフローティング字幕
- プライバシー最優先
- はじめ方
- モデル比較
- おわりに
コア機能
グローバルホットキー——いつでもどこでも話せる
ByeTypeはmacOSのメニューバーに常駐し、Dockのスペースを占有しません。どのAppでも、設定したホットキーを押すだけで録音が開始され、離すと自動的に認識・補正が行われ、結果がカーソル位置に貼り付けられます。
ウィンドウの切り替え不要、手動での貼り付け不要。集中力が途切れることはありません。
2つのトリガーモード:
- 長押しリリース:ホットキーを押しながら話し、離して完了——短いフレーズに最適
- ダブルタップロック:素早くダブルタップでハンズフリーモードに入り、もう一度押して終了——長文の口述に最適
自動貼り付け、シームレスな連携
認識完了後、ByeTypeは現在のクリップボードの内容を安全に一時保存し、認識結果を貼り付けた後、元のクリップボードを自動的に復元します。音声入力のために以前コピーした内容を失うことはありません。
5つの音声認識エンジン
ByeTypeは5種類の音声認識エンジンに対応しており、すべてMacのローカルで実行されます(Core ML)。インターネット不要です:
- Breeze ASR 25(MediaTek)— 繁体字中国語+英語に最適、中国語向けに最適化
- Parakeet TDT v3(Nvidia)— 25のヨーロッパ言語に対応する高速多言語認識、デフォルト推奨エンジン
- Qwen3 ASR 0.6B(Alibaba)— 中国語方言を含む30以上の言語をカバー、最広の言語対応
- WhisperKit(OpenAI Whisper)— 定番の多言語モデル、複数のサイズから選択可能
- Apple音声認識 — セットアップ不要、ダウンロード不要、システム内蔵機能を使用
各エンジンは設定でワンクリックで切り替え可能。モデルのダウンロードには進捗追跡とストレージ表示も付いています。
AIスマート補正
音声認識の生の結果には、句読点の欠落、誤字、フォーマットの乱れがつきものです。ByeType内蔵のAI強化機能が、認識完了後に自動的に処理します:
- 音声認識の誤字や聞き間違いを修正
- 適切な句読点を追加
- フィラーワード(えーと、あの、その)を除去
- 使用状況に応じたフォーマット調整
3つのAI強化方式:
- ローカルLLM(llama.cpp)— 完全オフライン、モデルを一度ダウンロードすれば永久に使用可能、プライバシー最高
- クラウドLLM — OpenAI / Anthropic / Google Gemini / Groq / Mistralに対応、高品質でモデル選択可能
- Apple Intelligence(macOS 26+)— Apple内蔵のFoundationModelsを使用、追加設定不要
シーン認識スタイル
ByeTypeは使用中のAppを自動的に検出し、対応するフォーマットスタイルを適用します:
| シーン | 代表的なApp | スタイル |
|---|---|---|
| メッセージ | Slack、Discord、LINE、Telegram | カジュアル、簡潔 |
| メール | Mail、Gmail、Outlook | フォーマル、構造的 |
| メモ | Notion、Obsidian、Bear | 箇条書き、明確 |
| コード | Xcode、VS Code、Cursor | コメント形式 |
| AIチャット | ChatGPT、Claude | 完全な質問文 |
| 検索 | Chrome、Safari、Arc | キーワード化 |
| SNS | X、Facebook、Instagram | SNSトーン |
各シーンのプロンプトはすべてカスタマイズ可能です。特定の文体やフォーマット要件がある場合は、Styleタブで直接編集できます。
リアルタイムフローティング字幕
録音中、画面上部のNotchエリアに小さなカプセルが表示され、リアルタイムで以下を表示します:
- 波形アニメーション——収音中であることを確認
- 認識中のテキスト——話しながら結果を確認
- 処理アニメーション——AI補正中の視覚的フィードバック
カプセルはマウスに追従し、マルチディスプレイ環境でも正しく配置されます。
イースターエッグもあります:カプセルに台湾固有種のピクセルアート動物がランダムに登場します——タイワンヤマネコ、タイワンツキノワグマ、タイワンアオカケス、キョン。音量に合わせて異なる動きをします:静かな時は立っている、話している時は歩く、大声の時は走る、認識中は考えている。
プライバシー最優先
音声入力においてプライバシーは特に重要です——音声には文字だけでなく、声紋、話速、さらにはその瞬間の感情まで含まれています。
ByeTypeの設計原則:
- 音声認識は100%オンデバイスで実行:すべてのSTTエンジンがCore MLを使用し、音声がMacの外に出ることはありません
- アカウントシステムなし:登録不要、ログイン不要、個人情報の収集なし
- クラウド同期なし:履歴、設定、モデル、すべてMacのローカルに保存
- AI補正も完全オフライン可能:ローカルLLMまたはApple Intelligenceを選択すれば、テキストもアップロード不要
- APIキーは安全に保管:クラウドLLMを使用する場合、APIキーはmacOS Keychainに保存され、平文で保存されることはありません
はじめ方
システム要件
- macOS 14.0+(Sonoma以降)
- Apple Silicon(M1以降)
- マイク権限 + アクセシビリティ権限
インストール手順
- ByeType DMGをダウンロード
- DMGを開き、ByeType.appをApplicationsにドラッグ
- 初回起動時にマイクとアクセシビリティの権限を許可
macOS Gatekeeperが起動をブロックする場合は、ByeType.appを右クリック →「開く」を選択してください。
初回設定のおすすめ
- 日本語ユーザー:デフォルトのParakeet TDT v3(650 MB)が高速で多言語対応。より広い言語カバレッジにはQwen3 ASR 0.6Bもおすすめ
- 中国語ユーザー:Breeze ASR 25(2.9 GB)をダウンロード、繁体字中国語の認識精度が最高
- AI補正:プライバシー重視ならローカルLLM、品質重視ならお好みのクラウドLLM APIキーを設定
モデル比較
| モデル | 提供元 | サイズ | 言語 | 精度 | 速度 | 推奨用途 |
|---|---|---|---|---|---|---|
| Breeze ASR 25 | MediaTek | 2.9 GB | 中国語 + 英語 | ★★★★★ | ★★★★ | 繁体字中国語に最適 |
| Breeze ASR 25 Lite | MediaTek | 1.5 GB | 中国語 + 英語 | ★★★★ | ★★★★★ | 中国語、省ストレージ |
| Parakeet TDT v3 | Nvidia | 650 MB | 25のヨーロッパ言語 | ★★★★★ | ★★★★★ | 多言語の日常使用 |
| Qwen3 ASR 0.6B | Alibaba | 2.5 GB | 30以上の言語 | ★★★★★ | ★★★★ | 最広の言語カバレッジ |
| Qwen3 ASR 0.6B Lite | Alibaba | 700 MB | 30以上の言語 | ★★★★ | ★★★★ | 多言語、省ストレージ |
| WhisperKit Large v3 | OpenAI | 1.5 GB | 多言語 | ★★★★ | ★★ | 品質優先 |
| WhisperKit Tiny | OpenAI | 73 MB | 多言語 | ★★ | ★★★★ | クイックドラフト |
| Apple音声認識 | Apple | システム内蔵 | macOSにより異なる | ★★★ | ★★★★ | セットアップ不要 |
おわりに
ByeType macOS デスクトップ版は、長年の音声AI経験を注ぎ込んだ作品です。音声認識エンジンの選定、AI補正のシーン設計、そして一つ一つのインタラクションの細部に至るまで——目標は常に、毎日実際に使いたくなる音声入力ツールを作ることでした。
機能の提案やフィードバックがあれば、ぜひRoadmapからお寄せください。すべて真剣に検討します。
Weirenです。7年以上のAIシステム開発経験を持ち、音声認識、オーディオインテリジェンス、オンデバイス機械学習を専門としています。複数のAIプロジェクトで、ASR、ノイズリダクション、リアルタイム推論などの技術をゼロからプロダクトに落とし込んできました。ByeTypeは、音声技術における長年の実践経験を集結させ、本当に使いやすい音声入力ツールをお届けします。
交流歓迎 LinkedIn
Wei-Ren Lan
7年以上のAIシステム開発経験を持ち、音声認識、オーディオインテリジェンス、デバイス上の機械学習を専門としています。AIチームをリードし、ASR、音声ノイズ除去、リアルタイム推論を製品に実装してきました。ByeTypeは、音声技術における長年の実践経験を凝縮した音声入力ツールです。