본문 바로가기 메뉴 바로가기

johanjun

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

johanjun

검색하기 폼
  • 분류 전체보기 (27)
    • Study (25)
      • Deep Learning (0)
      • NLP (9)
      • Data Science (0)
      • Data Engineering (0)
      • MLOps (11)
      • Statistics (1)
      • UX (2)
      • Product (2)
    • Jobs (2)
  • 방명록

deeplearning (1)
NLP with DeepLearning (2) - Corpus 정제

본격적으로 자연어처리를 위한 데이터 전처리 파이프라인에 대해서 알아보자. 크게 다음과 같은 절차를 따른다. 데이터(Corpus) 수집 데이터 정제 레이블링 (optional) Tokenization(분절) : 형태소 분석기를 활용하여 분절 수행 Subword Sefmentation (optional) Batchify : 사전 생성 및 word2index Corpus 정제 코퍼스는 문장들로 구성된 데이터셋, 말뭉치를 말한다. 코퍼스는 크게 전형적인 노이즈를 제거(전각문자 등)해야 한다. 전각 문자는 Unicode 이전의 한중일 언어를 예로 들 수 있는데, 쉽게 얘기하면 standard가 아닌 legacy라고 생각하면 될 것 같다. 대소문자는 가능하면 통일하는 것이 좋다. NYC, n.y.c는 같은 뉴욕 시..

Study/NLP 2021. 11. 18. 18:22
이전 1 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • 스타트업
  • PO
  • Tennis
  • 머신러닝파이프라인
  • 전처리
  • ML
  • 머신러닝
  • MLOps
  • Kubernetes
  • nlp
  • 자연어처리
  • 딥러닝
  • 쿠버네티스
  • DDUX
  • deeplearning
  • Bert
  • productmanager
  • container
  • 도커
  • 인공지능
  • mlpipeline
  • 파이프라인
  • docker
  • torch
  • PM
  • productowner
  • pmpo
  • productresearch
  • dl
  • Oreilly
more
«   2025/08   »
일 월 화 수 목 금 토
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바