ByeType vs Typeless vs Wispr Flow — Claude Code로 7일 만에 구축

현재 스마트폰과 PC의 음성 입력은 아직 충분히 똑똑하지 않습니다. 전문 용어를 잘못 인식하고, 문맥에 맞는 스마트한 대응이 어려운 경우가 많습니다. 최근 2~~3년간 AI 음성 인식과 LLM 기술이 성숙해지면서, 많은 벤더들이 이 기술을 음성 입력 강화에 활용하기 시작했습니다. Apple은 최근 1~~2년 사이 Apple Intelligence를 전개하기 시작하여, 고성능 기기에서 실시간 음성 인식과 LLM 처리를 구현하고 있습니다. 그러나 OS에 기본 탑재된 음성 입력은 아직 사용자를 만족시키지 못하고 있습니다. . ChatGPT가 등장한 지 3년이 지난 지금, 만약 누군가 “AI 알고리즘과 Python만 아는 엔지니어가 1주일 만에 Swift로 AI 음성 키보드 앱을 만들 수 있다”고 말했다면, 저는 전혀 믿지 않았을 것입니다.

하지만 지금은 2026/02/22, Claude Code가 2025/02/24에 출시된 지 아직 1년도 되지 않았습니다. 저는 2026년 설 연휴 7일 동안 이 가능성 실험을 완성했습니다.

Transformer/LLM/Agentic Engineering이 가져다준 지식의 풍요에 감사합니다.

결과물

Swift 기반 iOS 커스텀 키보드 앱으로, 다음 기능을 탑재

실시간 음성 인식 + 문맥 맞춤 스타일 보정
전문 용어 수정
음성 명령 텍스트 편집: 음성으로 인식된 텍스트를 수정
커스터마이징 가능한 스타일 프롬프트
로컬 WhisperKit 모델 + 클라우드 벤더(OpenAI/Anthropic/Gemini/ElevenLabs) 지원

Cloudflare Pages에 배포된 랜딩 페이지 https://byetype.com/

Cloudflare Pages에서 운영
다국어 지원
홈 / 기능 / 개인정보 보호 페이지

투자 비용

AI 음성 애플리케이션 7년 이상의 경험을 가진 엔지니어의 7일간 스프린트
- 학부 전자공학, 대학원 생체의공학 전공. 엔지니어링과 디버깅에 능숙
Claude Max: US$100
Claude Code 추가 사용료: US$230

Claude Code 사용 요금 스크린샷

왜 시작했는가?

2026년 2월 10일, X(구 Twitter)에서 일본 팀이 아시아에서 화제가 된 AI Dictation 도구 “Typeless”의 분석을 공개했습니다. 그 내용에 따르면, Typeless는 클라우드 기반 음성 인식을 사용하며, 전체 URL, 포그라운드 앱/윈도우 타이틀, 화면에 보이는 텍스트, 클립보드 내용, 시스템 레벨 키보드 이벤트 등의 컨텍스트 데이터를 수집할 가능성이 있다고 합니다. 또한 로컬 DB에는 전사 콘텐츠와 브라우징 데이터가 평문으로 저장될 가능성이 있어, “Zero data retention(데이터 보존 제로)“이라는 마케팅 문구와 모순될 수 있습니다. Accessibility/화면 녹화 등의 민감한 권한과 운영 투명성 부족이 동시에 존재할 경우, 전체적인 리스크가 증가하므로 사용자는 데이터 흐름과 권한 부여 범위에 특히 주의해야 합니다.

AI 애플리케이션 제품을 오랫동안 다뤄온 경험으로, AI Dictation 도구의 작동 방식은 대략 파악할 수 있습니다. 예를 들어: 음성 인식으로 전사를 얻고, 동시에 사용자가 현재 사용 중인 앱의 컨텍스트를 가져옵니다. 그런 다음, 전사와 앱 컨텍스트를 프롬프트로 LLM에 전달하여 서식을 정리합니다.

시장을 조사한 결과, iOS용 오픈소스 솔루션은 아직 존재하지 않았습니다. 실제로 만들어보면 어떨까 하는 호기심에 구현을 시작했습니다.

경쟁사 조사

2026년 2월 기준으로, 이 시장은 이미 매우 경쟁이 치열합니다. 주요 시장(미국)에서는 WisprFlow와 Willow라는 강력한 제품이 존재하며, 각각 2025년에 US$30M, US$4.2M을 조달했습니다. 2025년에 AI계의 저명인 Andrej Karpathy가 “Vibe Coding”이라는 용어를 만들어 개발자 커뮤니티에 퍼뜨렸을 때, 음성 입력은 Vibe Coding의 표준 도구가 되었습니다. 그때 그는 또 다른 서비스 SuperWhisper도 소개했습니다.

두 팀 모두 매우 젊습니다. WisprFlow의 창업자는 겨우 27세이고, Willow의 두 창업자는 각각 20세에 Stanford를 중퇴했습니다.

저는 Willow 팀의 활력이 특히 좋습니다. 창업자 Allan Guo는 어릴 때부터 문제 해결과 수익 창출에 능했는데, 10살 때 EDM을 좋아해서 구독자 1만 명 이상의 YouTube 채널을 운영하며 월 3,000달러의 수동 수입을 올렸습니다. 15살에 GPT API를 사용하기 시작했고, 16살에는 GPT를 활용한 전자책 판매로 월 30,000달러를 벌었습니다. 그들의 직함도 독특합니다. “Chief Keyboard Killer”와 “Chief Microphone Officer”.

중국에서도 많은 대형 모델 기업들이 AI 음성 입력을 출시하고 있습니다:

智谱AI: AutoTyper
ByteDance: 豆包 음성 입력기

아시아에서 잘 알려진 Typeless는 사실 후발주자로, 2025년 말에 중국계 미국인 팀이 설립하여 중국 외 동아시아 시장을 주요 타겟으로 하고 있습니다.

자금력 있는 위의 제품들 외에도, 로컬 모델을 중시하는 데스크톱 버전(macOS/Windows)의 오픈소스 솔루션을 제공하는 개인 개발자도 있습니다. 예를 들어 Handy나 OpenWhisper 등입니다.

각 서비스의 기능은 대체로 비슷합니다: (1) 고정밀 음성-텍스트 변환, (2) LLM을 통한 서식 정리, (3) 전문 용어 수정. 기반 기술이 유사하기 때문에, 의미 있는 차별화는 경험 설계에서 나옵니다——브랜드 이미지, 인터페이스 특징, 조작의 간편함, 인식 속도, 워크플로우의 독창성입니다.

현 시점의 경쟁 우위는 누가 사용자의 심리적 인식을 차지하고 신뢰를 얻을 수 있느냐에 달려 있습니다. 그래서 WisprFlow와 Willow는 ISO 27001, SOC 2 Type II, HIPAA 인증 취득에 나서고 있습니다.

관심이 있으시다면, 제가 정리한 AI Dictation 경쟁사 비교표(번체 중국어)를 참고하세요:

https://docs.google.com/spreadsheets/d/17x49TAXIoL1Tyz9yl2S15w21hw25E8jqBhTXRqOLAao/edit?usp=sharing

AI Dictation 경쟁사 기능 비교표

요약:

기술은 성숙하고 기능 차이는 미미——치열한 제품 경쟁
사용자 경험과 사용자 확보가 핵심 차별화 요소
iOS 등의 플랫폼이 온디바이스(엣지) 인식 지원을 시작

기술 개요

AI Dictation의 기술적 핵심: (1) 음성 인식 모델 (2) LLM

파이프라인: a. 사용자가 커스텀 키보드를 눌러 녹음 시작 b. 음성 파일을 음성 인식 모델에 전송 c. 시스템 API를 통해 사용자가 현재 입력 중인 앱의 카테고리(이메일, 메모, 검색 등)를 가져와 컨텍스트 파악 d. 음성 인식 전사와 컨텍스트에 맞는 포맷 프롬프트를 LLM에 전달하여 보정

이 파이프라인이 요구하는 주요 요건은 두 가지입니다: a. 높은 정확도 b. 처리 속도

적절한 벤더를 찾으려면 다음 벤치마크 사이트가 도움됩니다: https://artificialanalysis.ai/

추가 고려 사항: c. 프라이버시

현재 iOS에서 이용 가능한 최선의 선택지는 Argmax가 최적화한 WhisperKit입니다.

Agentic Engineering

Claude Code로 완전히 처음부터 시작하는 것은 상당히 도전적입니다. Claude Code에는 Plan mode가 내장되어 있지만, 복잡한 아키텍처의 실천을 뒷받침하기에는 아직 부족합니다. 그래서 Claude Code가 참조할 수 있는 사용하기 쉬운 도구와 워크플로우를 미리 준비할 필요가 있습니다.

Context

기반 Context: 핵심 기능과 아키텍처 참고 자료
- 목표 설정: Swift를 사용하여 iOS용 AI Dictation 기능 구축
- 참고 아키텍처 준비:
  - 데스크톱 버전(macOS/Windows)에서 TypeScript로 작성된 오픈소스 AI Dictation 도구 openwhisper
  - WhisperKit 사용 예제: https://github.com/argmaxinc/WhisperKit
- 각 AI 벤더의 API 문서 URL 및 GitHub 샘플 코드
각 AI Dictation 앱의 스크린샷: 온보딩/홈/설정/커스텀 키보드 페이지

도구 준비

Skills for Claude Code
- ui-ux-pro-max-skill: 이 Skill을 사용하여 인터페이스 디자인 평가 및 최적화를 수행하고 사용자 경험을 개선.
- compound-engineering-plan: Every.to 팀이 제공하는 소프트웨어 엔지니어링 워크플로우 Skill. Plan/Review/Work의 전체 사이클을 커버.
MCP
- Context7: 의존성 및 라이브러리 문서 가져오기.

Compound Engineering Plan 작업 화면

기타 도구

Entire: GitHub 전 CEO Thomas가 6,000만 달러의 시드 자금을 가지고 이 문제에 도전하여 entire.io를 설립했습니다. 무엇을 기록하는가? a. 해당 git commit에 대응하는 코딩 에이전트의 세션 대화 내용 b. 소비한 토큰 수 c. 경과 시간 d. 실행한 스텝 수 설정은 매우 간단해서, GitHub의 절차에 따라 리포지토리에서 실행하면 git commit과 연동하여 자동으로 기록됩니다.

Entire.io를 통한 Claude Code 작업 프로세스 기록

GitHub Actions: 기본적인 CI/CD로 활용
App Store Connect CLI: App Store 관련 플로우 자동화, 스크린샷 자동 촬영도 가능. Claude Code와 결합하여 “asc screenshots를 사용하여 시뮬레이터에서 스크린샷을 찍어주세요”라고 지시할 수 있음
Codex: 벤치 멤버——Claude Code가 토큰 한도에 도달했을 때 보다 단순한 작업을 담당
ChatGPT: Web Search/Deep Research로 배경 정보 조사——App Store 심사 플로우나 OAuth 설계 등의 파악에 활용

기본 환경

Xcode: 앱 컴파일 및 배포 담당
iPhone: 앱 테스트용 단말
GitHub: CI/CD 및 코드베이스 버전 관리
Apple Developer: 앱 배포에 필요한 개발자 멤버십
Cloudflare Pages/도메인: 랜딩 페이지 배포 환경

개발 워크플로우

Compound Engineering Plan으로 피처/피처 테스트를 계획하고, 사람이 리뷰하기 위한 Markdown 플랜을 출력
Compound Engineering Review로 피처 리뷰
Compound Engineering Implement로 구현
/ui-ux-pro-max-skill로 UI/UX 최적화 패스
실기 테스트
피처 테스트가 통과하면 git commit을 실행하여 CI/CD 트리거

사용 모델

우선: Opus 4.6——Sonnet과 비교하여, 정보 수집·계획·구현에 걸친 장시간 세션에서도 일관성을 유지할 수 있음.

어려웠던 점

앱 기능의 State Management: Agentic Coding에서는 여기에 누락이 발생하기 쉽습니다. 핵심 아키텍처 플로우는 역시 사람이 명확하게 자연어로 기술해야 합니다. 그렇지 않으면 루프가 발생하기 쉬워집니다——또는 완료되었다고 생각했는데, 다음에 인식을 시작했을 때 이전 세션의 결과가 다시 표시되는 일이 발생합니다.
음성 처리 지식: 음성의 샘플링 레이트와 포맷 차이를 이해해야 합니다. ASR 벤더에는 지원하는 샘플링 레이트와 포맷 제약이 있기 때문입니다.
새 기능 추가에 따른 영향: 단일 기능을 구현할 때 전체 플로우에 눈이 닿지 않는 경우가 있습니다. 새 기능을 추가한 후에도, 이미 구현된 피처가 정상적으로 동작하는지 계속 확인해야 합니다.

마치며

Happy Agentic Coding with Claude Code

이 7일간의 설 연휴 해커톤은 마법 같은 경험이었습니다. Agentic Coding이 능력을 얼마나 증폭시키는지 몸소 느낄 수 있습니다——마치 정신과 시간의 방에 들어간 것처럼, 엔지니어가 익숙하지 않은 문법에도 빠르게 뛰어들 수 있는 감각입니다. Claude Code가 출력할 때마다 도파민이 분비되어, 마치 조건화된 동물처럼 다음 출력을 기대하고 있었습니다. 지금까지 쌓아온 소프트웨어 엔지니어링 경험과 프로세스는 여전히 매우 중요하며, 안정적으로 전진하고 버그에 직면했을 때도 원인을 빠르게 정리하는 힘이 됩니다. 다만, 메모리 사용량 최적화, UI/UX 디자인, 멤버십 시스템 및 결제 연동과 같은 고급 최적화와 기능 이해에는 해당 분야에서 오랫동안 깊이 종사해온 전문가의 지원이 여전히 필요합니다.

여러분도 Happy Agentic Coding 하세요!

저는 Weiren, AI 음성 인식·음성 인텔리전스·온디바이스 머신 러닝을 전문으로 하는 AI 개발 7년 이상의 엔지니어입니다. 연결해 주세요: https://www.linkedin.com/in/weiren-lan/

목차

결과물