
대표값을 표현하는 '평균'도 여러가지 종류가 있다. 산술 평균 우리가 흔히 사용하는 방법이다(일명 n빵). 주어진 수의 합을 수의 개수로 나눈 값이다. Q) 3명이 가진 술자리에서 45000원이 나왔다. 1인당 내야 할 평균 금액은? A) 45000 / 3 = 15000 기하 평균 기하 평균(幾何平均, geometric mean)은 n개의 양수 값을 모두 곱한 것의 n제곱근이다. 예를 들어 2와 8의 기하평균은 4이다. 3이 6으로 바뀌면 2배로 증가한 것이고, 6이 48로 바뀌면 8배로 증가한 것인데, 2와 8의 기하 평균인 4를 3에 두 번 곱하면 48이 된다. (출처 : 위키피디아) 예시로 보면 훨씬 쉽다(실무에서 많이 쓰일 것 같다). Q) 2019년 매출은 10억, 2020년 매출은 20억, 2..

본격적으로 자연어처리를 위한 데이터 전처리 파이프라인에 대해서 알아보자. 크게 다음과 같은 절차를 따른다. 데이터(Corpus) 수집 데이터 정제 레이블링 (optional) Tokenization(분절) : 형태소 분석기를 활용하여 분절 수행 Subword Sefmentation (optional) Batchify : 사전 생성 및 word2index Corpus 정제 코퍼스는 문장들로 구성된 데이터셋, 말뭉치를 말한다. 코퍼스는 크게 전형적인 노이즈를 제거(전각문자 등)해야 한다. 전각 문자는 Unicode 이전의 한중일 언어를 예로 들 수 있는데, 쉽게 얘기하면 standard가 아닌 legacy라고 생각하면 될 것 같다. 대소문자는 가능하면 통일하는 것이 좋다. NYC, n.y.c는 같은 뉴욕 시..
- Total
- Today
- Yesterday
- ML
- DDUX
- 스타트업
- deeplearning
- PM
- Bert
- productmanager
- Kubernetes
- dl
- productowner
- PO
- Tennis
- 머신러닝
- 도커
- docker
- productresearch
- container
- Oreilly
- torch
- mlpipeline
- 딥러닝
- 머신러닝파이프라인
- nlp
- 파이프라인
- pmpo
- 쿠버네티스
- 자연어처리
- MLOps
- 인공지능
- 전처리
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |