텍스트 데이터 레이블 텍스트 데이터의 레이블은 다양한 형태로 존재할 수 있다. csv파일(comma-separated variables)은 문장 내의 comma와 혼동 될 수 있어서, tsv(tab-separated variables)를 권장한다. text classification의 경우는 클래스와 sentence가 tab으로 구분된 형태로 존재한다. Class Sentence positive !빠른 배송 좋아요 negative 이게뭐야?진짜이게뭐야?리뷰보고구매했는데!나원참! negative 제품 손잡이가 생각보다 너무약해 사용하기가 불편합니다. ... ... sentence ↔ sentence의 경우 1번과 같은 형태, 또는 대응되는 다른 파일로도 저장되어 있을 수 있다. Sentence Segmen..
TFX로 파일이나 서비스에서 데이터를 수집하는 컴포넌트를 실행할 수 있다. 데이터를 split하고, 여러 데이터를 결합하고, 다양한 형태의 데이터를 수집하는 전략들을 알아보자. 데이터를 컴포넌트로 전달하기 전에 다음의 절차를 따른다. 데이터를 데이터셋(train, valid)로 split TFRecord 파일로 변환 TFRecord는 데이터셋 스트리밍에 최적화된 형식이다. TFRecord는 대량의 데이터를 빠르게 다운로드하거나 write할 때 쓰는데 최적화 되어있고, 모든 TFX 컴포넌트에서 사용한다. TFRecord로 변환, 혹은 기존의 TFRecord 가져오기 tfx.components의 CsvExampleGen 패키지를 통해서 기존의 .csv 파일을 tf.Example로 변환할 수 있다. impor..
(포스팅의 모든 내용은 Hannes Hapke, Catherine Nelson 의 저서인 Building Machine Learning Pipelines(O’Reilly, 2020)를 직접 읽고 작성한 후기 및 정리글입니다.) TFX(Tensorflow Extended) TFX(Tensorflow Extended) 라이브러리는 ML 파이프라인에 필요한 모든 구성 요소를 제공한다. 파이프라인 업무 간의 취약한 연결(Glue code)은 고장을 일으키고, 자주 업데이트하기 어렵다. 구글이 이를 해결하기 위해서 코드의 양을 최소화하는 플랫폼을 개발하기로 결정했는데, 그게 바로 TFX이다. TFX는 아래와 같이 다양한 파이프라인 컴포넌트를 제공한다. 설치는 일반 라이브러리 설치하듯 pip로 설치하면 된다. $p..
(포스팅의 모든 내용은 Hannes Hapke, Catherine Nelson 의 저서인 Building Machine Learning Pipelines(O’Reilly, 2020)를 직접 읽고 작성한 후기 및 정리글입니다.) 머신러닝에 대해서는 2018년에 처음 접했고, 직접 실무를 하지는 않았지만 부트캠프, 독학 등으로 캐글 프로젝트 수준의 데이터가 주어지면 기초적인 ML/DL 모델을 실행할 수 있는 수준이 되었다(물론 모든 알고리즘을 100%이해하고 있는 것은 아니다). 최근 들어서 MLOps에 대한 관심이 생겼는데, 그 계기는 ML 모델링에 대한 접근성과 대중성이 높아졌다고 생각하기 때문이다. 불과 2~3년 전만 해도 ML 모델링은 환경 설치와 개발 문법과 프레임워크(Python, Tensorfl..
- Total
- Today
- Yesterday
- Bert
- 도커
- Kubernetes
- PM
- 인공지능
- deeplearning
- pmpo
- dl
- 자연어처리
- MLOps
- Oreilly
- ML
- productmanager
- 머신러닝파이프라인
- 머신러닝
- 파이프라인
- nlp
- productresearch
- 딥러닝
- 쿠버네티스
- 전처리
- container
- PO
- Tennis
- torch
- DDUX
- docker
- 스타트업
- mlpipeline
- productowner
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |