NLP with DeepLearning (3) - Tokenization
텍스트 데이터 레이블 텍스트 데이터의 레이블은 다양한 형태로 존재할 수 있다. csv파일(comma-separated variables)은 문장 내의 comma와 혼동 될 수 있어서, tsv(tab-separated variables)를 권장한다. text classification의 경우는 클래스와 sentence가 tab으로 구분된 형태로 존재한다. Class Sentence positive !빠른 배송 좋아요 negative 이게뭐야?진짜이게뭐야?리뷰보고구매했는데!나원참! negative 제품 손잡이가 생각보다 너무약해 사용하기가 불편합니다. ... ... sentence ↔ sentence의 경우 1번과 같은 형태, 또는 대응되는 다른 파일로도 저장되어 있을 수 있다. Sentence Segmen..
Study/NLP
2021. 11. 20. 15:28
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 전처리
- ML
- MLOps
- torch
- mlpipeline
- productowner
- 도커
- 머신러닝파이프라인
- 머신러닝
- 딥러닝
- productresearch
- productmanager
- container
- deeplearning
- 인공지능
- nlp
- PM
- 자연어처리
- pmpo
- Oreilly
- 쿠버네티스
- Kubernetes
- DDUX
- PO
- Tennis
- docker
- Bert
- dl
- 파이프라인
- 스타트업
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
글 보관함