Ai 4

그래프와 워드 클라우드

⛄ 단어 빈도 그래프 텍스트 분석에서 가장 단순하고 기본적인 아이디어는 하나 혹은 여러 개의 문서에서 가장 많이 사용된 단어를 파악하는 것으로, 이것만으로도 상당히 많은 정보를 얻을 수 있다. 단어 빈도 그래프를 그리려면 먼저 단어의 빈도를 구해야 한다. 이 작업을 하기 전 전처리 단계에서 앞서 배운 다양한 전처리 기법들을 활용한다. 데이터셋은 저작권이 만료된 영어 소설들을 제공하는 구텐베르크 프로젝트가 있는데, 여기서 루이스 캐럴의 이상한 나라의 앨리스 문서를 활용한다. import nltk nltk.download('gutenberg') from nltk.corpus import gutenberg # 파일 제목을 읽어온다. file_names = gutenberg.fileids() print(file..

텍스트 마이닝 기초

⛄ 텍스트 마이닝의 정의 텍스트 마이닝이란 텍스트에서 고품질 정보를 추출하는 과정(the process of deriving high-quality information from text)이다. 여기서 고품질 정보란, '패턴이나 트렌드를 통해서 얻어진다(High-quality information is typically obtained by devising patterns and trends)'라고 말한다. 정리하면, 텍스트로부터 패턴이나 트렌드를 분석해서 추출한 고품질의 정보이다. 그렇다면 패턴은 어떻게 찾을까? 우선 '통계적 패턴 학습'을 예로 들 수 있다. 최근 가장 많은 주목을 받은 머신러닝이 이에 해당하는 방법론이다. 다만 비정형적인 텍스트에 대해 머신러닝에 바로 적용할 순 없다. 즉, 비정형 ..

딥러닝과 신경망

⛄ 딥러닝 파이프라인 딥러닝(특히 컴퓨터 비전) 파이프라인은 (1) 이미지 입력, (2) 전처리, (3) 특징 추출, (4) 학습 알고리즘(분류기) 단계로 구성되어 있다. ⛄ 퍼셉트론 신경망은 많은 수의 뉴런으로 이루어져 있으며 이들 뉴런은 층 모양으로 배열되어 출력을 예측하기 위한 계산을 수행한다. 이러한 구조를 다층 퍼셉트론(multilayer perceptron)이라고 부른다. 다층 퍼셉트론의 그래프 구조에서 각 노드를 뉴런(neuron)이라고 부른다. 생물학적 뉴런은 여러 개의 수상돌기(dendrite)로부터 서로 다른 세기의 전기적인 신호를 받고 이 신호 세기의 합이 정해진 임계값을 넘으면 시냅스(synapse)를 통해 출력 신호를 보낸다. 이 출력은 또 다른 뉴런으로 연결되어 같은 과정을 반복..

머신러닝 시스템의 종류

머신러닝 시스템의 종류는 굉장히 많기 때문에, 넓은 범주에서 분류하면 도움이 된다. 사람의 감독하에 훈련하는 것인가? (지도, 비지도, 준지도, 강화 학습) 실시간으로 점진적인 학습을 하는가? (온라인 학습과 배치 학습) 단순하게 알고 있는 데이터 포인트와 새 데이터 포인트를 비교하는 것인가? 아니면 훈련 데이터셋에서 패턴을 발견하여 예측 모델을 만드는가? (사례 기반 학습과 모델 기반 학습) 1. 지도 학습과 비지도 학습> 머신러닝 시스템은 학습하는 동안의 감독 형태나 정보량에 따라 분류할 수 있다. 이 기준에 따라 지도 학습, 비지도 학습, 준지도 학습, 강화 학습 등 네 가지 주요 범주로 분류할 수가 있다. 지도 학습 (Supervised Learning) : 지도 학습에는 알고리즘에 주입하는 훈련..