NLP with DeepLearning (2) - Corpus 정제
본격적으로 자연어처리를 위한 데이터 전처리 파이프라인에 대해서 알아보자. 크게 다음과 같은 절차를 따른다. 데이터(Corpus) 수집 데이터 정제 레이블링 (optional) Tokenization(분절) : 형태소 분석기를 활용하여 분절 수행 Subword Sefmentation (optional) Batchify : 사전 생성 및 word2index Corpus 정제 코퍼스는 문장들로 구성된 데이터셋, 말뭉치를 말한다. 코퍼스는 크게 전형적인 노이즈를 제거(전각문자 등)해야 한다. 전각 문자는 Unicode 이전의 한중일 언어를 예로 들 수 있는데, 쉽게 얘기하면 standard가 아닌 legacy라고 생각하면 될 것 같다. 대소문자는 가능하면 통일하는 것이 좋다. NYC, n.y.c는 같은 뉴욕 시..
Study/NLP
2021. 11. 18. 18:22
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- PM
- MLOps
- ML
- 스타트업
- Bert
- 도커
- productmanager
- 전처리
- torch
- 머신러닝
- 딥러닝
- docker
- dl
- Kubernetes
- nlp
- deeplearning
- productowner
- PO
- 자연어처리
- Oreilly
- Tennis
- 파이프라인
- pmpo
- DDUX
- mlpipeline
- container
- 머신러닝파이프라인
- 인공지능
- 쿠버네티스
- productresearch
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
글 보관함