[Android] 온디바이스 AI 개발기 - 1편: 왜 온디바이스인가

서버 AI말고 기기 안에서 돌리는 LLM, 왜 쓰는 걸까

Posted by 동식이 블로그 on April 3, 2026

[Android] 온디바이스 AI 개발기 - 1편: 왜 온디바이스인가

서버 AI를 두고 굳이 기기 안에서 LLM을 돌리는 이유

시작하게 된 계기

사이드 프로젝트로 앱에 AI 기능을 붙이려고 했다. 처음엔 당연히 Claude API, Gemini API 같은 서버 AI를 쓰려 했다. 그런데 찾아보다 보니 온디바이스 LLM이라는 게 생각보다 많이 발전해 있었고, Google AI Gallery가 공개되면서 꽤 쓸 만한 모델들이 올라오기 시작했다.

그냥 기기 안에서 돌리면 되는 거 아닌가, 라는 단순한 궁금증으로 시작했다.

서버 AI vs 온디바이스 AI

먼저 둘의 차이를 정리해보면 이렇다.

  서버 AI (API) 온디바이스 AI
데이터 전송 서버로 전송 기기 내 처리
네트워크 필요 불필요
비용 토큰당 과금 없음
모델 크기 제한 없음 수 GB 이내
응답 속도 네트워크 RTT 포함 RTT 없음
품질 높음 (GPT-4, Claude 등) 낮음 (1B~7B급)

서버 AI가 품질은 압도적으로 좋다. 그런데 온디바이스가 유리한 상황이 분명히 있다.

온디바이스가 유리한 경우

1. 사용자 데이터를 서버로 보내기 껄끄러울 때

개인 메모, 일기, 사적인 대화 내용 같은 걸 AI로 처리하고 싶은데 서버로 보내기가 꺼려지는 경우가 있다. 온디바이스면 데이터가 기기 밖으로 나가지 않는다.

B2B 앱이라면 더 민감하다. 업무 데이터를 외부 서버로 보내는 것 자체를 못하게 막아두는 기업들이 있다.

2. 오프라인에서도 동작해야 할 때

지하철, 비행기, 해외 등 네트워크가 없거나 불안정한 환경에서도 AI 기능이 동작해야 한다면 온디바이스가 유일한 선택이다.

3. API 비용이 부담될 때

서버 AI는 토큰당 과금이다. 사용자가 많아질수록 비용이 선형으로 늘어난다. 온디바이스는 한 번 모델을 다운받으면 추가 비용이 없다.

4. 응답 속도가 중요할 때

서버 AI는 아무리 빨라도 네트워크 RTT가 있다. 온디바이스는 RTT가 없기 때문에 첫 토큰까지의 시간(TTFT, Time To First Token) 이 훨씬 짧다.

TTFT가 왜 중요한가

사용자 입장에서 AI가 빠르다고 느끼는 건 전체 응답이 완료되는 시간보다 첫 글자가 얼마나 빨리 나오냐에 달려 있다.

스트리밍 응답 기준으로:

1
2
3
TTFT 500ms → 사용자가 즉각 반응한다고 느낌
TTFT 2~3초 → 로딩 느낌
TTFT 5초+  → 답답함

서버 AI는 아무리 빨라도 네트워크 왕복 시간이 있다. 온디바이스는 그게 없다.

그럼 온디바이스가 만능인가

아니다. 명확한 한계가 있다.

모델이 작다 = 품질이 낮다

온디바이스에서 현실적으로 돌릴 수 있는 모델은 1B~3B 정도다. GPT-4, Claude 같은 수백B짜리 모델과 비교하면 품질 차이가 크다. 복잡한 추론, 긴 컨텍스트, 다국어 처리 같은 건 한계가 있다.

잘 되는 것

  • 짧은 텍스트 요약
  • 간단한 분류 (중요 / 중요하지 않음)
  • 짧은 답장 초안

잘 안 되는 것

  • 긴 문서 분석
  • 복잡한 추론
  • 정확한 번역 (언어 품질)

기기를 탄다

GPU 가속이 지원되는 기기에서는 빠르지만, 지원 안 되는 기기에서는 CPU로 돌려야 해서 느리다. 모든 사용자에게 동일한 경험을 보장하기 어렵다.

모델 용량

1B짜리도 int4 양자화 기준 약 1GB다. 앱 용량에 포함시키기 어렵고 런타임에 다운로드해야 한다.

결론

온디바이스 AI는 서버 AI를 대체하는 것이 아니라 서버 AI가 적합하지 않은 상황을 커버하는 것이다.

데이터 보안이 중요하거나, 오프라인 지원이 필요하거나, 단순한 작업을 빠르게 처리해야 하는 경우에 온디바이스가 빛을 발한다.

다음 편에서는 실제로 어떤 엔진들을 테스트해봤고, 어떤 삽질을 했는지 정리해볼 예정이다.


2편 - MediaPipe에서 LiteRT-LM으로 (삽질기) 에서 계속

참고사이트