이상혁
Data Engineer | sanghyeokl915@gmail.com
소개
30개 이상의 프랜차이즈 상거래 데이터를 통합하고 시스템화하는 엔지니어입니다. 매머드커피, 더리터 등 대규모 브랜드의 데이터를 안정적으로 수집·적재하기 위해 아키텍처 현대화를 주도하며, 수집 성공률 100%와 배포 리드타임 90% 단축을 달성했습니다.
기술
Languages: Python, SQL
Cloud: AWS, Snowflake
Infra & Orchestration: Terraform, Docker, Apache Airflow
Backend: FastAPI
AI/LLM: LangChain, LangGraph
CI/CD: GitHub Actions
경력
서클플랫폼
서울
Data Engineer
Jun. 2024 - 현재
프랜차이즈 데이터 거버넌스 및 DW 고도화
30+개 브랜드, 500+개 테이블의 상거래 데이터를 3단계 파이프라인(S3→STG→RAW→CI)으로 Snowflake DW에 통합 및 운영 비용 최적화
서드파티 수집 환경 고도화(EC2 -> ECS/backend, orchestration)
Problem: 브랜드 급증으로 인한 수동 운영(EC2)의 확장성 한계 및 서드파티 데이터 누락 발생
Action: ECS Fargate 기반 서버 환경 전환 및 Apache Airflow 오케스트레이션 도입
Result: 3개 배달 플랫폼(배민, 쿠팡이츠, 요기요) × 5개 브랜드 자동 수 집 체계 구축, 배포 리드타임 90% 단축 및 수집 성공률 100% 확보
셀러박스(자사서비스) 파이프라인 유지보수 및 채널 확장
20+개 커머스 마켓(식스샵프로, 토스, 롯데온 등) 연동 모듈을 지속 추가하여 데이터 커버리지 20% 확대
마켓별 인증/UI 변경에 따른 수집 로직 유지보수 전담 및 수집 성공률 90% 유지
프로젝트
서드파티 배달 플랫폼 데이터 수집 시스템 구축
Data Team
Data Engineer
Sep. 2025 - 현재
Background: 사내 DB로 인입되지 않는 외부 배달 앱 데이터를 확보하기 위해, 1개 브 랜드 전용 MVP를 다수 브랜드 통합 수집이 가능한 플랫폼 구조로 고도화
Infrastructure (Terraform & ECS):
Terraform 모노레포를 활용하여 인프라 자산을 관리하고, workflow_dispatch 기반 개발 서버의 자동 파기(Auto-destroy) 체계를 구축하여 운영 효율성 증대
수동 관리형 EC2를 ECS Fargate로 마이그레이션하여 프로세스를 격리하고 리소스 가용성을 확장함으로써 시스템 안정성 강화
Orchestration (Airflow & S3):
신규 브랜드 요청 시 코드 수정 없이 YAML 설정만으로 태스크를 생성할 수 있는 DAG Factory 구조를 설계하여 유지보수 용이성 향상
S3 DAG-Sync 기법을 도입하여 Docker 빌드 없이 코드를 반영함으로써 배포 시간을 90% 단축
Collection & Reliability:
Playwright와 비동기 Requests를 활용한 수집 모듈을 구축하고, DynamoDB 분산 락을 도입하여 자동 수집 및 수동 Backfill 간 데이터 정합성을 유지
데이터 파이프라인 설계를 통해 속도보다 완결성을 중시하여, 데이터 유실 없는 환경을 구축
Snowflake 기반 전사 통합 데이터 웨어하우스(DW) 구축 및 최적화
Data Team
Data Engineer
May. 2025 - 현재
초기 모든 통계형 데이터를 Snowflake에서 직접 조회하던 설계로 인한 불필요한 조회 비용 발생 문제를 식별하고 아키텍처 재설계 주도
실시간과 통계형 경로를 분리하여 Snowflake를 통계 처리 전용으로 전환하고, 통계형은 DMS → Kinesis Firehose → S3 → Snowflake, 실시간은 Lambda → RDS로 적재하는 이원화 구조 구축
기존 SQL 기반 관리 구조를 Snowflake SDK(Snowpark)로 전면 이관하고 GitHub 연동을 통해 코드형 관리(CI/CD) 구현
Snowflake가 폴더 구조를 직접 인식하지 못하는 문제를 GitHub CI 단계에서 파일을 zip으로 압축하여 프로시저 단위로 배포 및 버전 관리하는 구조로 해결
Airflow를 활용해 원본 DB와 Snowflake 적재 데이터를 정기 비교하는 정합성 검증 파이프라인을 구현하고, 수치 차이 발생 시 Slack 알림 발송 및 로그 저장 자동화로 데이터 신뢰도 확보
결제 취소 및 정산 지연 등 빈번한 데이터 변경 특성을 고려해 배치 후 1~2일간의 정밀 모니터링 체계를 구축하여 운영 중 발생하는 이슈를 사전 인지하고 100% 복구
셀러박스
Data Team
Data Engineer
Jun. 2024 - 현재
Flask 기반 데이터 수집 코드를 FastAPI로 전면 이관(비동기 코드로 리팩토링)하여 서비스 응답 지연 문제 해결 및 데이터 수집 속도 약 50% 향상
모니터링 체계를 신규 구축하여 장애 인지 불가 상태에서 1분 미만으로 단축. 이후 DB 인덱싱 및 최적화가 가능하도록 구조 전환에 기여
마켓별 웹 구조 및 인증 방식 변경에 따른 수집 로직 유지보수를 전담
AI 기반 상품 분석 및 콘텐츠 생성 서비스
Data Team
LLM Engineer
Apr. 2025 - Jul. 2025
상품 이미지 인식 후 상품명을 정확히 추론하고, 사용자가 직접 입력 시 연관 키워드를 자동으로 추천하는 기능을 설계
입력된 키워드를 기반으로 상품명 및 상세 설명 3종을 자동 생성하는 콘텐츠 생성 파이프라인을 성공적으로 구축
LangChain 및 LangGraph를 활용하여 단계별 순서 제어와 상태 관리가 가능한 워크플로우를 구현
프롬프트 변경 시 코드 수정 없이 DB 기반 버전 관리를 통해 효율적인 개선 구조를 확보
Chunk 단위의 스트리밍 응답 구조를 설계하여 사용자의 대기 시간을 70% 단축하고 실시간 응답 경험 제공 (현재 PoC 및 내부 운영 단계)
학력
경희대학교
용인
컴퓨터공학, 학사
Feb. 2021 - Jul. 2023
University of Canterbury (중퇴)
크라이스트처치, 뉴질랜드
컴퓨터과학, 학사
Feb. 2013 - Oct. 2014