
Pod 쿠버네티스는 스케줄링, 로드밸런싱, 스케일링 등의 관리 작업을 수행하는데, 이 작업의 단위가 Pod이다. 하나의 Pod는 한 개의 컨테이너 혹은 여러 개의 컨테이너로 구성되어 있다. Pod는 특정 상태를 저장하고 있지 않으며, 언제든 삭제가 가능한 자원이다. apiVersion: v1 # kubernetes resource 의 API Version kind: Pod # kubernetes resource name metadata: # 메타데이터 : name, namespace, labels, annotations 등을 포함 name: counter spec: # 메인 파트 : resource 의 desired state 를 명시 containers: - name: count # container ..

Docker 설치 가장 먼저 패키지 매니저인 apt-get을 업데이트한다. $ sudo apt-get update 도커 설치를 위한 prerequisites를 설치하려고 하는데, 역시나 에러가 떴다. 구글링해보니 lock이 걸려있는 경로를 지워줘야 한다고 한다. $ sudo rm /var/lib/apt/lists/lock $ sudo rm /var/cache/apt/archives/lock $ sudo rm /var/lib/dpkg/lock* 이후에 재부팅 하니 아래의 prerequisites 설치가 가능해졌다. $ sudo apt-get install \ apt-transport-https \ ca-certificates \ curl \ gnupg \ lsb-release 다음은 GPG key를 설치한..

Garbage in, Garbage Out 머신러닝을 경험한 사람이라면 지겹도록 들은 말일 것이다(대부분은 Garbage가 안들어가도 Garbage Out되지만). 데이터를 선별하고 검증하지 않으면 모델이 제대로 학습하지 못한다. 데이터 검증은 파이프라인의 데이터가 피처 엔지니어링 단계에서 기대하는 데이터인지 확인하는 작업이다. 아래와 같은 작업들이 데이터 검증이라고 할 수 있다. 여러 데이터셋을 비교 시간이 지나 업데이트되면서 데이터가 변경될 때도 표시 이상치를 확인하거나 스키마(schema)의 변경 확인 새 데이터셋과 이전 데이터셋의 통계가 일치하는지도 확인 TFDV(Tensorflow Data Validation)를 통한 데이터 검증 TFX가 제공하는 패키지인 TFDV을 통하여 데이터를 검증해보자...

텍스트 데이터 레이블 텍스트 데이터의 레이블은 다양한 형태로 존재할 수 있다. csv파일(comma-separated variables)은 문장 내의 comma와 혼동 될 수 있어서, tsv(tab-separated variables)를 권장한다. text classification의 경우는 클래스와 sentence가 tab으로 구분된 형태로 존재한다. Class Sentence positive !빠른 배송 좋아요 negative 이게뭐야?진짜이게뭐야?리뷰보고구매했는데!나원참! negative 제품 손잡이가 생각보다 너무약해 사용하기가 불편합니다. ... ... sentence ↔ sentence의 경우 1번과 같은 형태, 또는 대응되는 다른 파일로도 저장되어 있을 수 있다. Sentence Segmen..

TFX로 파일이나 서비스에서 데이터를 수집하는 컴포넌트를 실행할 수 있다. 데이터를 split하고, 여러 데이터를 결합하고, 다양한 형태의 데이터를 수집하는 전략들을 알아보자. 데이터를 컴포넌트로 전달하기 전에 다음의 절차를 따른다. 데이터를 데이터셋(train, valid)로 split TFRecord 파일로 변환 TFRecord는 데이터셋 스트리밍에 최적화된 형식이다. TFRecord는 대량의 데이터를 빠르게 다운로드하거나 write할 때 쓰는데 최적화 되어있고, 모든 TFX 컴포넌트에서 사용한다. TFRecord로 변환, 혹은 기존의 TFRecord 가져오기 tfx.components의 CsvExampleGen 패키지를 통해서 기존의 .csv 파일을 tf.Example로 변환할 수 있다. impor..

(포스팅의 모든 내용은 Hannes Hapke, Catherine Nelson 의 저서인 Building Machine Learning Pipelines(O’Reilly, 2020)를 직접 읽고 작성한 후기 및 정리글입니다.) 머신러닝에 대해서는 2018년에 처음 접했고, 직접 실무를 하지는 않았지만 부트캠프, 독학 등으로 캐글 프로젝트 수준의 데이터가 주어지면 기초적인 ML/DL 모델을 실행할 수 있는 수준이 되었다(물론 모든 알고리즘을 100%이해하고 있는 것은 아니다). 최근 들어서 MLOps에 대한 관심이 생겼는데, 그 계기는 ML 모델링에 대한 접근성과 대중성이 높아졌다고 생각하기 때문이다. 불과 2~3년 전만 해도 ML 모델링은 환경 설치와 개발 문법과 프레임워크(Python, Tensorfl..
- Total
- Today
- Yesterday
- PO
- 도커
- 인공지능
- deeplearning
- container
- Kubernetes
- 쿠버네티스
- 파이프라인
- Bert
- 머신러닝파이프라인
- docker
- DDUX
- PM
- 스타트업
- pmpo
- 딥러닝
- productowner
- Tennis
- mlpipeline
- MLOps
- productresearch
- dl
- 자연어처리
- 머신러닝
- productmanager
- torch
- ML
- 전처리
- nlp
- Oreilly
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |