'deeplearning' 태그의 글 목록

NLP with DeepLearning (2) - Corpus 정제

본격적으로 자연어처리를 위한 데이터 전처리 파이프라인에 대해서 알아보자. 크게 다음과 같은 절차를 따른다. 데이터(Corpus) 수집 데이터 정제 레이블링 (optional) Tokenization(분절) : 형태소 분석기를 활용하여 분절 수행 Subword Sefmentation (optional) Batchify : 사전 생성 및 word2index Corpus 정제 코퍼스는 문장들로 구성된 데이터셋, 말뭉치를 말한다. 코퍼스는 크게 전형적인 노이즈를 제거(전각문자 등)해야 한다. 전각 문자는 Unicode 이전의 한중일 언어를 예로 들 수 있는데, 쉽게 얘기하면 standard가 아닌 legacy라고 생각하면 될 것 같다. 대소문자는 가능하면 통일하는 것이 좋다. NYC, n.y.c는 같은 뉴욕 시..

Study/NLP 2021. 11. 18. 18:22

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

글 보관함

johanjun

티스토리툴바