본문 바로가기

NLP4

자연어처리 모델 만들기-(2).데이터 전처리 💬 한국어 텍스트 데이터 전처리 텍스트 데이터는 보통 그 자체로 사용하기보다, 의미의 단위로 나눠서 활용 여부나 사이 연관 관계를 찾는다. 저번 장에서 확인한 대로, 데이터셋의 텍스트 데이터는 한국어 문장으로 구성되어 있다. 학습할 때마다 한국어 형태소 분리를 실행해도 되지만, 시간이 너무 많이 걸려서, 텍스트 데이터를 전처리 해놓기로 한다. 한국어 텍스트 데이터 전처리 방법 텍스트 데이터의 전처리 단계는 다음과 같다. 1. 텍스트 데이터를 형태소 단위로 분리한다. 2. 분리된 데이터 중, 불용어를 제거한다. (Optional) 3. 동의어를 mapping 할 수 있다면, 동의어를 mapping한다. (Optional) 4. word dictionary를 생성 5. word를 정수 인코딩한다. 1. 한국.. 2023. 4. 23.
자연어처리 모델 만들기-(1).데이터셋 분석-2 💬 비윤리적 텍스트 검출 데이터셋 분석 지난 장에서, '텍스트 윤리검증 데이터'의 train, validation, test 데이터의 양과 형태에 대해서 확인해보았다. 이번 장에서는, 텍스트 데이터를 조금 더 자세하게 분석해보기로 한다. 텍스트 데이터를 분석하는 것은 추후 불용어나, 텍스트 정수 인코딩에서 빈도수 제한을 거는 등에 활용되어, 더 좋은 모델을 만드는데 사용될 수 있다. 텍스트의 윤리검증 기준은 사람마다 다르다. 데이터셋을 구성한 명확한 기준을 알 수 없기에, 우선 데이터셋으로 구성된 비윤리적 텍스트들에는 어떠한 공통점이 있는지 확인해보면 좋을 것이다. data_dir = r"{설치위치}\data\val" df = pd.read_csv(data_dir, sep='\t', header=None.. 2023. 3. 4.
자연어처리 모델 만들기-(1).데이터셋 분석-1 💬 비윤리적 텍스트 검출 데이터셋 분석 딥러닝의 학습 모델 및 학습 방법에서 가장 중요한 것은 내가 풀고자 하는 문제가 무엇인지에 관한 것이다. 이를 위해 가장 좋은 방법은 내가 풀고자 하는 문제의 데이터들을 분석하는 것이다. 사실, AI Hub는 데이터셋 사용자를 위해, 구성된 데이터에 대해서 자세한 설명을 적어두었다. 따라서, 그냥 설명을 읽어도 되지만, 그냥 스스로 분석해보고 싶어서 해당 장을 적었다. (데이터 분석이 익숙한 사람들은 해당 장의 내용은 넘어가도 된다.) 나는 원래 Jupyter Notebook을 좋아하지 않았다. (뭔가 코드를 짠다는 느낌보다는 단순히 입력한다는 느낌이 강하다.) 하지만, 데이터 분석을 간단하게 하기에는 Jupyter Notebook만 한 툴이 없기에, 의식적으로 J.. 2023. 3. 4.
자연어처리 모델 만들기-(0).환경 세팅 💬 자연어처리(NLP) 모델 만들기 💎 배경 요즘 ChatGPT가 대세다. 석사 과정때는 이미지 처리 중심으로 연구를 진행했어서, 자연어처리에 관련해서 공부를 해보고 싶다는 생각이 들어 자연어처리의 초기 모델부터 현재 ChatGPT까지 흐름을 직접 코드를 짜보면서 이해해보고자 한다. 데이터셋 준비 기본적으로 딥러닝 모델을 만들때, 가장 중요한 것은 “어떤 데이터를 처리하고자 하는가?”이다. 이왕 공부하는 김에 재밌는 데이터를 처리하고 싶어서, 자연어 처리에 필요한 데이터를 뒤져보았다. 내가 선택한 데이터는 한국지능정보사회진흥원에서 운영하는 “AI Hub”에서 다운로드 받을 수 있는 “_텍스트 윤리검증 데이터_”이다. (내국인은 로그인 후, 다운 받을 수 있다) 해당 데이터는 인터넷 상에서 윤리적인 데이터.. 2023. 2. 27.