ByeType vs Typeless vs Wispr Flow — Claude Codeで7日間で構築

現在のスマートフォンやPCの音声入力は、まだ十分に賢いとは言えません。専門用語の誤認識や、文脈に応じたスマートな対応ができないことが多いです。この2〜3年で、AI音声認識とLLM技術の成熟に伴い、多くのベンダーがこれらの技術を音声入力の強化に活用し始めています。 Appleはここ1〜2年でApple Intelligenceの展開を開始し、処理能力の高い端末でリアルタイム音声認識とLLM処理を実現しています。しかし、OSに標準搭載された音声入力は、まだユーザーの満足には至っていません。 . ChatGPTが登場して3年が経った今でも、もし「AIアルゴリズムとPythonしか知らないエンジニアが、1週間でSwiftを使ってAI音声キーボードアプリを作れる」と誰かに言われたとしたら、私はまったく信じなかったでしょう。

しかし今は2026/02/22、Claude Codeが2025/02/24にローンチしてからまだ1年も経っていません。私は2026年の旧正月7日間の休暇で、この可能性実験を完成させました。

Transformer/LLM/Agentic Engineeringがもたらした知識の豊かさに感謝します。

成果

Swiftベースのカスタムキーボードアプリ（iOS）で、以下の機能を搭載

リアルタイム音声認識＋文脈に応じたスタイル補正
専門用語の修正
音声コマンドによるテキスト編集：音声で話すことで認識済みのテキストを修正
カスタマイズ可能なスタイルプロンプト
ローカルWhisperKitモデル＋クラウドベンダー（OpenAI/Anthropic/Gemini/ElevenLabs）に対応

Cloudflare Pagesにデプロイされたランディングページ https://byetype.com/

Cloudflare Pagesで稼働
多言語対応
ホーム/機能/プライバシーページ

投資

AI音楽・音声アプリ7年以上の経験を持つエンジニアによる7日間のスプリント
- 学部はEE（電気電子工学）、大学院はバイオメディカル工学。エンジニアリングとデバッグが得意
Claude Max: US$100
Claude Code 追加利用料: US$230

Claude Code 使用料金スクリーンショット

なぜ始めたのか？

2026年2月10日、X（旧Twitter）で日本のチームが、アジアで話題になっているAI Dictationツール「Typeless」の分析を公開しました。その内容によると、Typelessはクラウドベースの音声認識を使用しており、完全なURL、フォアグラウンドのアプリ/ウィンドウタイトル、画面上の可視テキスト、クリップボードの内容、システムレベルのキーボードイベントなどの文脈データを収集している可能性があるとのことです。また、ローカルDBには転写コンテンツや閲覧データが平文で保存されている可能性があり、「Zero data retention（データ保持ゼロ）」というマーケティングの謳い文句と矛盾する可能性があります。Accessibility/画面録画などの高感度権限と、運用の透明性の不足が同時に存在する場合、全体的なリスクが増大するため、ユーザーはデータの流れと権限付与の範囲に特に注意する必要があります。

AIアプリケーション製品を長年手がけてきた経験から、AI Dictationツールの仕組みはおおよそ見当がつきます。例えば：音声認識で文字起こしを取得し、同時にユーザーが使用中のアプリの文脈を取得する。次に、文字起こしとアプリの文脈をプロンプトとしてLLMに渡し、書式を整える——という流れです。

市場を調査したところ、iOS向けのオープンソースソリューションはまだ存在しないことがわかりました。実際に作ってみたらどうなるか好奇心が湧き、実装を始めました。

競合調査

2026年2月時点で、このマーケットはすでに非常に競争が激しい状況です。主要市場（米国）では、WisprFlowとWillowという強力なプロダクトが存在し、それぞれ2025年にUS$30M・US$4.2Mを調達しました。2025年にAI界の著名人Andrej Karpathyが「Vibe Coding」という言葉を生み出し開発者コミュニティに広まった頃、音声入力はVibe Codingの標準装備となりました。その際、彼は別のサービスSuperWhisperも紹介しています。

どちらのチームも非常に若く、WisprFlowの創業者はわずか27歳、Willowの2人の創業者はそれぞれ20歳でStanfordを中退しています。

私はWillowチームのバイタリティが特に好きです。創業者のAllan Guoは幼い頃から問題解決と稼ぎが得意で、10歳の時にEDMが好きで登録者1万人超えのYouTubeチャンネルを持ち、月3,000ドルの不労所得を得ていました。15歳でGPT APIを使い始め、16歳にはGPTを使った電子書籍販売で月30,000ドルを稼いでいました。彼らの肩書きもユニークです。「Chief Keyboard Killer」と「Chief Microphone Officer」。

中国でも多くの大手モデル企業がAI音声入力をリリースしています：

智譜AI: AutoTyper
ByteDance: 豆包音声入力法

アジアでよく知られているTypelessは実は後発で、2025年末に中国系アメリカ人チームが立ち上げ、中国以外の東アジア市場を主なターゲットとしています。

資金力のある上記のプロダクト以外にも、ローカルモデルを重視したデスクトップ版（macOS/Windows）のオープンソースソリューションを提供している個人開発者もいます。例えばHandyやOpenWhisperなどです。

各サービスの機能は概ね同じです：(1)高精度な音声テキスト変換、(2)LLMによる書式整理、(3)専門用語の修正。基礎技術が似ているため、意味のある差別化は体験設計から生まれます——ブランドイメージ、インターフェースの特徴、操作の簡単さ、認識速度、ワークフローの工夫です。

現時点の競争優位は、誰がユーザーの心理認識を勝ち取り、信頼を得られるかにかかっています。だからこそ、WisprFlowやWillowはISO 27001、SOC 2 Type II、HIPAAの認証取得に動いています。

ご興味があれば、私がまとめたAI Dictation競合比較表（繁体字中国語）をご覧ください：

https://docs.google.com/spreadsheets/d/17x49TAXIoL1Tyz9yl2S15w21hw25E8jqBhTXRqOLAao/edit?usp=sharing

AI Dictation 競合機能比較表

まとめ：

技術は成熟し機能差はわずか——熾烈なプロダクトレース
ユーザー体験とユーザー獲得が鍵となる差別化要素
iOSなどのプラットフォームがオンデバイス（エッジ）認識のサポートを始めている

技術概要

AI Dictationの技術的コア： (1) 音声認識モデル　(2) LLM

パイプライン： a. ユーザーがカスタムキーボードを押して録音を開始 b. 音声ファイルを音声認識モデルに送信 c. システムAPIを通じて、ユーザーが現在入力しているアプリのカテゴリ（メール、メモ、検索など）を取得し、文脈を把握 d. 音声認識の書き起こしと、文脈に合わせたフォーマットプロンプトをLLMに渡して補正

このパイプラインが求める主な要件は2つです： a. 高精度 b. 処理速度

適切なベンダーを探すには、以下のbenchmarkサイトが役立ちます： https://artificialanalysis.ai/

追加の考慮事項として： c. プライバシー

現在iOSで利用できる最良の選択肢は、ArgmaxがOptimizeしたWhisperKitです。

Agentic Engineering

Claude Codeで完全にゼロから始めるのは、かなり挑戦的です。 Claude CodeにはPlan modeが内蔵されていますが、複雑なアーキテクチャの実践を支えるには依然として不十分です。だからこそ、Claude Codeが参照できる使いやすいツールとワークフローを事前に準備する必要があります。

Context

基盤となるContext：コア機能とアーキテクチャの参考資料
- ゴール設定：Swiftを使ってiOS向けAI Dictation機能を構築する
- 参考アーキテクチャの準備：
  - デスクトップ版（macOS/Windows）でTypeScriptで書かれたオープンソースAI Dictationツールopenwhisper
  - WhisperKitの使用例：https://github.com/argmaxinc/WhisperKit
- 各AIベンダーのAPIドキュメントのURL・GitHubサンプルコード
各AI DictationアプリのスクリーンショットOBoardingオンボーディング/ホーム/設定/カスタムキーボードページ

ツール準備

Skills for Claude Code
- ui-ux-pro-max-skill：このSkillを用いてインターフェースデザインの評価・最適化を行い、ユーザー体験を改善。
- compound-engineering-plan：Every.toチームが提供するソフトウェアエンジニアリングワークフローSkill。Plan/Review/Workの全サイクルをカバー。
MCP
- Context7：依存関係やライブラリのドキュメントを取得。

Compound Engineering Plan 作業画面

その他のツール

Entire：GitHub元CEOのThomasが6,000万ドルのシード資金を携えてこの問題に挑み、entire.ioを設立しました。何を記録するのか？ a. そのgit commitに対応するコーディングエージェントのセッション会話内容 b. 消費したトークン数 c. 経過時間 d. 実行したステップ数セットアップは非常に簡単で、GitHubの手順に従ってリポジトリで実行するだけで、git commitと連動して自動的に記録されます。

Entire.io による Claude Code 作業プロセスの記録

GitHub Actions：基本的なCI/CDとして活用
App Store Connect CLI：App Store関連フローの自動化、スクリーンショットの自動撮影も可能。Claude Codeと組み合わせて「asc screenshotsを使ってシミュレーターでスクリーンショットを撮ってください」と指示できる
Codex：ベンチ要員——Claude Codeがトークン上限に達した際に、よりシンプルなタスクを担当
ChatGPT：Web Search/Deep Researchで背景情報を調査——App Storeの審査フローやOAuth設計などの把握に活用

基本環境

Xcode：アプリのコンパイルとデプロイを担当
iPhone：アプリのテスト用端末
GitHub：CI/CDおよびコードベースのバージョン管理
Apple Developer：アプリ配布に必要なデベロッパーメンバーシップ
Cloudflare Pages/ドメイン：ランディングページのデプロイ環境

開発ワークフロー

Compound Engineering Plan でフィーチャー/フィーチャーテストを計画し、人間がレビューするためのMarkdownプランを出力
Compound Engineering Review でフィーチャーをレビュー
Compound Engineering Implement で実装
/ui-ux-pro-max-skill でUI/UX最適化パス
実機テスト
フィーチャーテストが通ったらgit commitを実行してCI/CDをトリガー

使用モデル

優先：Opus 4.6——Sonnetと比べて、情報収集・計画・実装にわたる長時間のセッションでも一貫性を保てる。

ハマったポイント

アプリ機能のState Management： Agentic Codingではここに抜け漏れが発生しやすい。コアとなるアーキテクチャのフローは、やはり人間が明確に自然言語で記述する必要があります。そうしなければ、ループが発生しやすくなります——あるいは完了したと思っていても、次に認識を開始したときに前のセッションの結果が再び表示されるようなことが起きます。
音声処理の知識：音声のサンプリングレートとフォーマットの違いを理解しておく必要があります。ASRベンダーにはサポートするサンプリングレートとフォーマットの制約があるためです。
新機能追加による影響：単一機能を実装する際、全体のフローに目が届かないことがあります。新機能を追加した後も、すでに実装済みのフィーチャーが正常に動作しているかを確認し続ける必要があります。

おわりに

Happy Agentic Coding with Claude Code

この7日間の旧正月ハッカソンは、魔法のような体験でした。 Agentic Codingが能力をどれほど増幅させるか、肌で感じることができます——まるで精神と時の部屋に入ったかのように、エンジニアが慣れない文法にも素早く飛び込める感覚です。 Claude Codeが出力するたびにドーパミンが放出され、まるで条件付けられた動物のように、次の出力を心待ちにしていました。これまでに積み上げてきたソフトウェアエンジニアリングの経験やプロセスは依然として非常に重要で、安定して前進し、バグに直面したときにも原因を素早く整理する力になります。ただし、メモリ使用量の最適化、UI/UXデザイン、会員システムや決済連携といった高度な最適化や機能の理解には、その分野で長年深く携わってきた専門家のサポートがまだ必要です。

みなさんもHappy Agentic Codingを！

私はWeiren、AI音声認識・音声インテリジェンス・オンデバイス機械学習を専門とする、AI開発7年以上のエンジニアです。ぜひつながりましょう：https://www.linkedin.com/in/weiren-lan/

目次

成果

投資