이번 포스트에서는 일반 text 문서, json data, pdf 등 다양한 입력 소스에서 값을 읽어 embedding 시키기 위한 ETL Pipeline에 대해 살펴보자. ETL Pipeline 정의앞서 살펴봤던 ETL Pipeline에 대해서 다시 한번 정리하고 가자. ETL(Extract, Transform, Load)는 데이터 소스에서 정보를 읽고 원하는 형태로 변형하여 저장소에 로드하는 과정이다.ETL Pipeline에는 크게 3가지 객체가 사용된다.DocumentReader: Supplier>의 구현체로 json, markdown, pdf, text 등에서 데이터 수집DocumentTransformer: Function, List>의 구현체로 수집된 Document를 원하는 형태로 변환Do..
04.ETL Pipeline
이번 포스트에서는 일반 text 문서, json data, pdf 등 다양한 입력 소스에서 값을 읽어 embedding 시키기 위한 ETL Pipeline에 대해 살펴보자. ETL Pipeline 정의앞서 살펴봤던 ETL Pipeline에 대해서 다시 한번 정리하고 가자. ETL(Extract, Transform, Load)는 데이터 소스에서 정보를 읽고 원하는 형태로 변형하여 저장소에 로드하는 과정이다.ETL Pipeline에는 크게 3가지 객체가 사용된다.DocumentReader: Supplier>의 구현체로 json, markdown, pdf, text 등에서 데이터 수집DocumentTransformer: Function, List>의 구현체로 수집된 Document를 원하는 형태로 변환Do..
2025.06.07