이상혁

Data Engineer | sanghyeokl915@gmail.com

30개 이상의 프랜차이즈 상거래 데이터를 통합하고 시스템화하는 엔지니어입니다. 매머드커피, 더리터 등 대규모 브랜드의 데이터를 안정적으로 수집·적재하기 위해 아키텍처 현대화를 주도하며, 수집 성공률 100%와 배포 리드타임 90% 단축을 달성했습니다.

기술

경력

서클플랫폼

서울

Data Engineer

2024년 6월 - 현재

프랜차이즈 데이터 거버넌스 및 DW 고도화

30+개 브랜드, 500+개 테이블의 상거래 데이터를 3단계 파이프라인(S3→STG→RAW→CI)으로 Snowflake DW에 통합 및 운영 비용 최적화

서드파티 수집 환경 고도화(EC2 -> ECS/backend, orchestration)

Problem: 브랜드 급증으로 인한 수동 운영(EC2)의 확장성 한계 및 서드파티 데이터 누락 발생
Action: ECS Fargate 기반 서버 환경 전환 및 Apache Airflow 오케스트레이션 도입
Result: 3개 배달 플랫폼(배민, 쿠팡이츠, 요기요) × 5개 브랜드 자동 수집 체계 구축, 배포 리드타임 90% 단축 및 수집 성공률 100% 확보

셀러박스(자사서비스) 파이프라인 유지보수 및 채널 확장

프로젝트

서드파티 배달 플랫폼 데이터 수집 시스템 구축

Data Team

Data Engineer

2025년 9월 - 현재

Background: 사내 DB로 인입되지 않는 외부 배달 앱 데이터를 확보하기 위해, 1개 브랜드 전용 MVP를 다수 브랜드 통합 수집이 가능한 플랫폼 구조로 고도화

Infrastructure (Terraform & ECS):
- Terraform 모노레포를 활용하여 인프라 자산을 관리하고, workflow_dispatch 기반 개발 서버의 자동 파기(Auto-destroy) 체계를 구축하여 운영 효율성 증대
- 수동 관리형 EC2를 ECS Fargate로 마이그레이션하여 프로세스를 격리하고 리소스 가용성을 확장함으로써 시스템 안정성 강화
Orchestration (Airflow & S3):
- 신규 브랜드 요청 시 코드 수정 없이 YAML 설정만으로 태스크를 생성할 수 있는 DAG Factory 구조를 설계하여 유지보수 용이성 향상
- S3 DAG-Sync 기법을 도입하여 Docker 빌드 없이 코드를 반영함으로써 배포 시간을 90% 단축
Collection & Reliability:
- Playwright와 비동기 Requests를 활용한 수집 모듈을 구축하고, DynamoDB 분산 락을 도입하여 자동 수집 및 수동 Backfill 간 데이터 정합성을 유지
- 데이터 파이프라인 설계를 통해 속도보다 완결성을 중시하여, 데이터 유실 없는 환경을 구축

Snowflake 기반 전사 통합 데이터 웨어하우스(DW) 구축 및 최적화

Data Team

Data Engineer

2025년 5월 - 현재

초기 모든 통계형 데이터를 Snowflake에서 직접 조회하던 설계로 인한 불필요한 조회 비용 발생 문제를 식별하고 아키텍처 재설계 주도
- 실시간과 통계형 경로를 분리하여 Snowflake를 통계 처리 전용으로 전환하고, 통계형은 DMS → Kinesis Firehose → S3 → Snowflake, 실시간은 Lambda → RDS로 적재하는 이원화 구조 구축
- 기존 SQL 기반 관리 구조를 Snowflake SDK(Snowpark)로 전면 이관하고 GitHub 연동을 통해 코드형 관리(CI/CD) 구현
- Snowflake가 폴더 구조를 직접 인식하지 못하는 문제를 GitHub CI 단계에서 파일을 zip으로 압축하여 프로시저 단위로 배포 및 버전 관리하는 구조로 해결
Airflow를 활용해 원본 DB와 Snowflake 적재 데이터를 정기 비교하는 정합성 검증 파이프라인을 구현하고, 수치 차이 발생 시 Slack 알림 발송 및 로그 저장 자동화로 데이터 신뢰도 확보
- 결제 취소 및 정산 지연 등 빈번한 데이터 변경 특성을 고려해 배치 후 1~2일간의 정밀 모니터링 체계를 구축하여 운영 중 발생하는 이슈를 사전 인지하고 100% 복구

셀러박스

Data Team

Data Engineer

2024년 6월 - 현재

Flask 기반 데이터 수집 코드를 FastAPI로 전면 이관(비동기 코드로 리팩토링)하여 서비스 응답 지연 문제 해결 및 데이터 수집 속도 약 50% 향상
모니터링 체계를 신규 구축하여 장애 인지 불가 상태에서 1분 미만으로 단축. 이후 DB 인덱싱 및 최적화가 가능하도록 구조 전환에 기여
마켓별 웹 구조 및 인증 방식 변경에 따른 수집 로직 유지보수를 전담

AI 기반 상품 분석 및 콘텐츠 생성 서비스

Data Team

LLM Engineer

2025년 4월 - 2025년 7월

입력된 키워드를 기반으로 상품명 및 상세 설명 3종을 자동 생성하는 콘텐츠 생성 파이프라인을 성공적으로 구축
LangChain 및 LangGraph를 활용하여 단계별 순서 제어와 상태 관리가 가능한 워크플로우를 구현
프롬프트 변경 시 코드 수정 없이 DB 기반 버전 관리를 통해 효율적인 개선 구조를 확보
Chunk 단위의 스트리밍 응답 구조를 설계하여 사용자의 대기 시간을 70% 단축하고 실시간 응답 경험 제공 (현재 PoC 및 내부 운영 단계)

학력

경희대학교

용인

컴퓨터공학, 학사

2021년 2월 - 2023년 7월

University of Canterbury (중퇴)

크라이스트처치, 뉴질랜드

컴퓨터과학, 학사

2013년 2월 - 2014년 10월