TFX로 파일이나 서비스에서 데이터를 수집하는 컴포넌트를 실행할 수 있다. 데이터를 split하고, 여러 데이터를 결합하고, 다양한 형태의 데이터를 수집하는 전략들을 알아보자. 데이터를 컴포넌트로 전달하기 전에 다음의 절차를 따른다. 데이터를 데이터셋(train, valid)로 split TFRecord 파일로 변환 TFRecord는 데이터셋 스트리밍에 최적화된 형식이다. TFRecord는 대량의 데이터를 빠르게 다운로드하거나 write할 때 쓰는데 최적화 되어있고, 모든 TFX 컴포넌트에서 사용한다. TFRecord로 변환, 혹은 기존의 TFRecord 가져오기 tfx.components의 CsvExampleGen 패키지를 통해서 기존의 .csv 파일을 tf.Example로 변환할 수 있다. impor..
(포스팅의 모든 내용은 Hannes Hapke, Catherine Nelson 의 저서인 Building Machine Learning Pipelines(O’Reilly, 2020)를 직접 읽고 작성한 후기 및 정리글입니다.) TFX(Tensorflow Extended) TFX(Tensorflow Extended) 라이브러리는 ML 파이프라인에 필요한 모든 구성 요소를 제공한다. 파이프라인 업무 간의 취약한 연결(Glue code)은 고장을 일으키고, 자주 업데이트하기 어렵다. 구글이 이를 해결하기 위해서 코드의 양을 최소화하는 플랫폼을 개발하기로 결정했는데, 그게 바로 TFX이다. TFX는 아래와 같이 다양한 파이프라인 컴포넌트를 제공한다. 설치는 일반 라이브러리 설치하듯 pip로 설치하면 된다. $p..
(포스팅의 모든 내용은 Hannes Hapke, Catherine Nelson 의 저서인 Building Machine Learning Pipelines(O’Reilly, 2020)를 직접 읽고 작성한 후기 및 정리글입니다.) 머신러닝에 대해서는 2018년에 처음 접했고, 직접 실무를 하지는 않았지만 부트캠프, 독학 등으로 캐글 프로젝트 수준의 데이터가 주어지면 기초적인 ML/DL 모델을 실행할 수 있는 수준이 되었다(물론 모든 알고리즘을 100%이해하고 있는 것은 아니다). 최근 들어서 MLOps에 대한 관심이 생겼는데, 그 계기는 ML 모델링에 대한 접근성과 대중성이 높아졌다고 생각하기 때문이다. 불과 2~3년 전만 해도 ML 모델링은 환경 설치와 개발 문법과 프레임워크(Python, Tensorfl..
- Total
- Today
- Yesterday
- 스타트업
- 자연어처리
- 딥러닝
- PM
- container
- ML
- DDUX
- PO
- torch
- 도커
- 인공지능
- productowner
- productmanager
- Tennis
- pmpo
- 전처리
- Bert
- 머신러닝
- Kubernetes
- docker
- mlpipeline
- nlp
- Oreilly
- dl
- productresearch
- 머신러닝파이프라인
- deeplearning
- 파이프라인
- MLOps
- 쿠버네티스
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |