S3 2

custom xcom + taskflow + multi task return 케이스

우리는 s3(minIO)를 활용한 custom xcom을 구성하여 airflow를 사용중이다. 빅데이터를 처리하기위해서 task간 xcom을 통한 데이터 이동시, storage object에 pickle형태로 보관하도록 했다. 우리 airflow를 사용하는 유저가 airflow에 대한 이해도가 높지않은점을 고려해서 최대한 단순하게 사용할수있었으면 했다. task에서 return되는 변수는 pickle로 minIO의 custom xcom 버킷에 날짜별로 저장되게 되고, lifecycle 설정을 통해 생성된지 90일이 된 데이터는 삭제되도록했다. 이렇게하면 대규모 데이터 특히 pandas dataframe을 사용하는 유저가 많은데 이런 df를 쉽게 task간 전송이 가능해졌다. 그리고, 한개 df가 아닌 여..

airflow 2024.04.14

minIO셋업

minIO는 오브젝트 스토리지 매니지먼트툴이다. aws s3와 호환이된다. 오브젝트스토리지 매니지의 대표적은 오픈소스로, mlflow 와 함께 모델 버전관리에 쓰인다. 인풋데이터등 비정형데이터를 관리하기에 좋아 머신러닝에서 많이 쓰인다. 1.셋업 minio lifecycle정책을 집에서 테스트해볼일이 생겨서 간단하게 구축해보았다. -private git repostory에 helm index가 셋업된 helm registry가 있다고 가정 -private image registry가 있다고 가정 *주의: minIO 는 2021년 5월부터 AGPL 라이센스 v3가 되었다. 네트워크에 배포시 유관 소스코드 공개 필수 bitnami minIO helm chart를 활용했다. 먼저 values.yaml위에 덮어..

minIO 2024.03.08