Hansu Kim

Hansu Kim

AI SW Engineer Seoul, South Korea

cpm0722@gmail.com

소개

기술의 원리에 대한 깊은 이해를 추구합니다. 문서화/자동화에 관심이 많습니다. AI와 SW Engineering을 결합해 문제를 해결하는 것을 좋아합니다.

경력

NAVER

Gyeonggi, South Korea

AI SW Engineer / Search LLM Solution

Nov. 2021 - 현재

21년 신입 공개채용으로 입사 후 이동 없이 한 팀에서 근무했습니다.

  • 모델러 팀에서 엔지니어 포지션을 맡아 팀 내에서 엔지니어링으로 풀어야 하는 문제가 있으면 가리지 않고 맡아 해결했습니다.

    • 주도적으로 수행한 메인 프로젝트

      • 데이터 파이프라인, 추론, 평가, 자동화, 에이전트 개발 등

    • 엔지니어링 역량을 발휘해 동료를 지원한 사례

      • 여러 조직에서 구축한 다양한 LLM의 모델의 아키텍쳐를 표준화해 config 기반 huggingface 및 vLLM 구현체 제공

      • MoE 등장 초기 Megatron-LM으로 학습된 MoE model의 checkpoint를 huggingface 표준 checkpoint(Mistral)로 변환하는 checkpoint converter 작성해 체크포인트 평가 가능하도록 지원

  • 팀원들의 업무 생산성 향상을 위해 다음과 같은 역할을 주도적으로 수행했습니다.

    • 학습/추론 프레임워크를 편리하게 사용할 수 있도록 솔루션 형태로 제공

    • 사내 인프라/플랫폼(k8s, container 플랫폼, image registry, storage 플랫폼, kubeflow 등)에 대한 가이드를 문서화 후 조직 내에 공유

KakaoBrain

Gyeonggi, South Korea

AI SW Engineer (Internship) / Large-Scale TF

Jun. 2021 - Jul. 2021

2개월 간의 인턴십을 통해 CLIP 기반 billion-scale 자연어-이미지 검색 시스템을 구축했습니다.

프로젝트

AI 국민비서 에이전트 개발

NAVER Search LLM Solution

Aug. 2025 - 현재

  • goal: invocation latency avg 3초 이내, 시나리오 성공률 95%의 고성능 에이전트 개발

  • skill: Python, google ADK, MCP, RAG, Prompt Engineering

  • role

    • 에이전트 워크플로우 설계 및 개선

    • MCP tool 재설계 (LLM-friendly)

    • callback 및 state 기반 LLM 컨텍스트 최적화

    • regression test 기반 프롬프트 엔지니어링

    • prefill / decode를 고려한 latency 최적화

    • nlu pattern match 적용한 hybrid 전략 채택해 평균 latency 개선

  • achievement

    • invocation latency avg 2.5초, 시나리오 성공률 98% 달성

PaLADIN: LLM-friendly PDF Parser 개발

NAVER Search LLM Solution

Jun. 2025 - Sep. 2025

  • goal: SOTA 수준의 PDF parsing 기술을 확보해 증권사리포트 요약 서비스 개발

  • skill: Python, pytorch, Triton Inference Server, docker, k8s, VLM

  • role

    • 프로젝트 리딩, 아키텍쳐 설계 및 개발

    • Yolo / VLM / OCR / LLM 등 다양한 모델을 Triton Inference Server로 배포 후 연동

    • 테이블/차트에 대한 Parsing 능력 평가셋 구축 (with LLM)

    • LLM-as-a-judge 기반 PDF 요약 성능 평가

  • achievement

    • 속도 및 성능: 내부 평가셋에서 open-source SOTA(docling) 대비 높은 성능(+2.7%), 낮은 latency(-0.5s) 달성

    • 범용성: 서비스의 요구 속도/품질에 맞게 적용 가능하도록 다양한 선택지 제공

    • 지속적으로 활용 가능한 PDF 파싱의 품질을 평가할 수 있는 한국어 평가셋 구축

  • 참고 자료: 2025 Engineering Day 발표

Text Encoder (ModernBERT) backbone pretraining

NAVER Search LLM Solution

Dec. 2024 - Aug. 2025

  • goal: 사내 Text Encoder Model 최신화, long context 지원, 기존 모델 대비 초과 성능 달성

  • skill: Python, Pytorch, Docker, k8s, huggingface, vLLM

  • role

    • 2T token에 대한 데이터 전처리 및 저품질 필터링 파이프라인 구축

    • 데이터 조합 및 비율에 대한 ablation study

    • ModernBERT open-source 개선 및 bug fix

    • multi-node (A100 16node) 사전학습 파이프라인 구축 및 실제 학습

    • checkpoint 성능 평가 파이프라인 및 대시보드 구축

    • ModernBERT에 대한 vLLM inference 구현

  • achievement

    • 4개 size의 Text Encoder Backbone model 구축 (tiny / small / base / large)

    • 사내 기존 모델 대비 105% 성능 달성 + long context (8k) 지원

LLM 평가 파이프라인 구축 및 자동화

NAVER LLM Solution

Dec. 2023 - Jun. 2025

  • goal: 지속적으로 등장하는 LLM에 대한 한국어 성능 측정 및 비교 평가

  • skill: vLLM, FasterTransformer, TensorRT-LLM, llama.cpp, Docker, k8s, Kubeflow

  • role

    • FasterTransformer/TensorRT-LLM/vLLM/llama.cpp 등 다양한 Inference Engine에 대해 dockernize

    • 사내 평가셋, open-source 평가셋에 대한 표준 인터페이스화

    • tensor-parallel, speculative decoding 지원하는 latency 측정 파이프라인 구축

    • kubeflow 기반 평가 파이프라인 자동화

    • 다양한 LLM의 모델 아키텍쳐를 표준화해 config 기반 huggingface model 구현체 작성 후 vLLM inference 구현 (model naming: Raptor)

  • achievement

    • 약 100개의 LLM에 대한 한국어 성능 비교 평가

    • 모델 공개 후 평균 3일 이내에 한국어 성능 측정 후 사내 공유

  • 참고 자료: DAN24 발표 (발표자: 팀 리더)

FasterTransformer Inference 기술 개발

NAVER LLM Solution

Jul. 2022 - Nov. 2023

  • goal

    • multimodal model(CLIP, CoCa) FasterTransformer 구현

    • sLLM(0.3B, 0.7B) 추론 속도 최적화 후 realtime 검색 서비스에 탑재

    • 다양한 모델에 대한 FasterTransformer 추론 환경을 팀내/사내에 제공

  • skill: C++, CUDA, FasterTransformer, Docker

  • role

    • CLIP, CoCa, HyperCLOVA model에 대한 FasterTransformer 구현체 작성

    • 다양한 모델에 대한 FasterTransformer 추론 환경을 dockernize해 제공

    • 내부 모델에 호환되도록 Triton Inference Server의 ft_backend 개선 및 커스터마이징

    • dynamic batching, tensor parallel, response caching 적용

  • achievement

    • 질의처리 task에서 20ms 이하의 latency 달성(baseline 대비 2.5배 faster) 및 realtime 검색 서비스에 탑재

    • 8개 모델에 대한 FasterTransformer 추론 환경을 사내에 제공(BERT, BART, T5, GPT-2, HyperCLOVA, CLIP, CoCa, ViT)

Billion-scale image-text 데이터셋 구축

NAVER Language and Vision

Apr. 2022 - Feb. 2023

  • goal

    • multimodal model(CoCa) 사전학습을 위한 billion-scale의 고품질 이미지-텍스트 데이터셋을 구축

    • 기존의 데이터 파이프라인 개선 및 효율화

  • skill: Python, Pytorch Hadoop MapReduce, Bash

  • role

    • 검색 로그 기반 데이터 수집 파이프라인 구축

    • 데이터 전처리 파이프라인 구축

      • 이미지 데이터 전처리 (NSFW, 워터마크, 저해상도 등)

      • 텍스트 데이터 전처리 (NSFW, 형태소분석, 개인정보 마스킹 등)

      • 이미지-텍스트 유사도 필터링

  • achievement

    • 소규모 데이터셋(1/4)으로 기존 대비 5% 높은 성능 달성

    • 데이터 파이프라인 소요 시간 4배 감소

기술

AI / LLM / DeepLearning

NAVER에서의 경력 내 검색의 다양한 분야에 AI/LLM을 적용해 왔습니다.

  • period: 4+ years

Python

경력 내 주요 프로젝트 개발은 모두 Python을 통해 진행했습니다.

Python의 내부 동작 원리 및 구조를 깊게 이해하고 있습니다.

  • period: 4+ years

Pytorch / Transformers

학습 및 추론에서의 pytorch / transformers를 항상 사용했습니다.

  • period: 4+ years

C / C++

학부 4년 기간 동안 C language를 주로 사용했습니다.

C language를 활용해 규모 있는 프로젝트를 개발한 경험이 있습니다.

포인터, 메모리 구조에 대해 정확하게 이해하고 있습니다.

FasterTransformer 프로젝트에서 C++를 사용해 개발을 진행했습니다.

  • period: 2+ years

Linux / Bash

학부 기간을 포함해 모든 경력 기간 동안 개발은 Linux / Mac terminal 환경을 사용했습니다. (w/ vim)

다양한 리눅스 명령어를 활용해 데이터 처리를 자유롭게 수행할 수 있습니다.

  • period: 4+ years

Docker / Kubernetes / Kubeflow

팀 내에 docker / k8s 사용법을 전파하고, 다양한 솔루션을 docker image 형태로 제공했습니다.

kubeflow를 활용해 학습, 추론, 평가 파이프라인을 자동화 한 경험이 다수 있습니다.

  • period: 4+ years

LLM Inference Engine (vLLM, FasterTransformer, ...)

LLM Inference 기술이 정립되지 않던 시기부터 다양한 선행 기술을 적용해 왔습니다.

CLIP, CoCa 등의 모델에 대해 FasterTransformer 구현체를 구현한 경험이 있습니다.

다양한 LLM, Encoder Model에 대해 vLLM 구현체를 구현 및 수정했습니다.

  • period: 3+ years

학력

숭실대학교

Seoul, South Korea

컴퓨터학부

Feb. 2016 - Jan. 2022

GPA 4.08/4.5

연락처

GitHub

cpm0722

이메일

cpm0722@gmail.com

LinkedIn

hansu-kim-b15b2920b

웹사이트

https://cpm0722.github.io

Post

Transformer 아키텍쳐에 대한 상세 분석 및 구현 (w/ Pytorch)