전체 글 썸네일형 리스트형 [부스트캠프 AI Tech] day 12 Review Training error와 Test error는 다른 것이다. 이둘의 차이를 최소한으로 줄이는 것을 Generalization Performance를 좋게 한다고 말 할 수 있다. 데이터를 k개의 partition으로 분할한 뒤 k-1개의 셋으로 학습을 시키고 1개의 셋으로 테스트를 진행(validation dataset은 학습 데이터에 포함)하면서 최적의 하이퍼 파라미터 셋을 찾아가는 과정을 Cross Validation이라고한다. 다만, 테스트 데이터는 건드리지 않는게 좋다(일종의 치팅) 고정된 학습데이터를 분리하여 모델을 여러개 만들어 전체 모델의 성능향상을 꾀하는 것을 일반적으로 Bootstraping 이라고하는데, Bagging 기법이란, 학습데이터 셋을 여러개 만들고 여러모델을 .. 더보기 [부스트캠프 AI Tech] day11 Review 인공지능 인간의 지능을 모방한다 라는 큰 슬로건 그안에 데이터를 통해 학습하는 Machine Learning 분야가 있고 그안에 Deep Learning이 존재한다. Deep Learning 먼저 무엇인가를 학습하기위한 data를 필요로하고 모델이 필요하며, 이 모델을 학습하기 위한 Loss function, loss를 최소화 하기위한 알고리즘을 필요로한다. 크게 classification(고양이 인지 개인지 등을 구별하는 문제), Semantic Segmentation(이미지를 픽셀별로 구분해내는 문제), Detection(이미지 안의 물체를 bounding box로 나타내주는 문제), Pose Estimation(사람의 skeleton 정보 등을 시각화), Visual QnA(이미지,문장.. 더보기 [부스트캠프 AI Tech] day9 Review 이산확률변수 vs 연속확률변수 문제에 맞게 손실함수를 적절히 사용하기위해 확률론을 공부하자. 이산확률변수란 연속되지 않는 변수를 뜻하고,(ex. 횟수,요일...) 연속확률 변수란 연속되는 변수를 뜻한다.(ex. 키,몸무게..) 데이터 공간에서 연속확률변수를 구간을 나눠 샘플링을 통해 이산확률변수로 바꿔 사용하기도 한다. pandas.groupby 통상적으로 split => apply => combine 과정을 거친다. 하나 또는 여러개 항목을 기준으로 묶어 sum,mean등 각종 연산을 지원한다. 엑셀의 기능들을 pandas에서 지원한다. 레벨을 지정해주면 series 데이터형으로 바뀌므로 각종 연산이 가능하다. 기대값 확률분포가 주어지면 데이터를 분석하는데 사용 가능한 여러종류의 통계적 범.. 더보기 [부스트캠프 AI Tech] day8 Review layer 층이 깊을수록 목적함수를 근사하는데 필요한 노드(뉴런)의 수가 적으므로 효율적이다. Softmax 입력받은 값을 출력으로 0~1 사이의 값으로 모두 정규화하며, 출력값들의 총합은 항상 1이되는 특성을 가진 함수 분류하고 싶은 클래스의 수만큼 출력 갯수를 구성한다. 학습을 시킬때 주로 사용되는 활성화 함수이고 통상적으로 추론을 할때는 잘 사용하지 않는다. 신경망 선형모델과 활성함수를 하나의 묶음으로 보면, 여러묶음의 선형모델+활성함수로 구성되어있다. 활성함수란 입력 신호의 총합을 출력 신호로 변환해주느 함수로, 보통 선형을 비선형으로 근사하기 위하여 사용한다. Numpy & Pandas Numpy는 같은 데이터타입의 다차원배열을 지원하고, 난수생성이가능하며 연산가능하다. Pandas.. 더보기 [부스트캠프 AI Tech] day7 Review 경사 상승& 하강법 미분값을 더해주며 함수값이 최대화 되는 위치를 찾는다.(경사 상승법) 미분값을 빼주며 극소값을 구한다(경사 하강법) 그레디언트 벡터 다변수 함수(벡터가 입력) 인 경우, 편미분을 변수 갯수만큼 계산 가능하다. 이 그레디언트 벡터를 통해 모델을 개선해나간다. 확률적 경사하강법(SGD) mini batch(데이터의 일부)를 통해 볼록한 모양이 아닌 목적식을 최적화한다. 구간마다(mini batch) 목적식의 모양이 바뀌므로 조금더 괜찮은 결과를 도출할 수 있다. 데이터를 조금씩 가져와 모델을 학습시키므로, 하드웨어적 한계를 해결할 수 있다. 느낀점 어렴풋이 알고 있었던 경사하강법과, 확률적 경사하강법에 대하여 조금 더 심도깊은 이해를 할 수 있었고, 정확한 원리에 대해서 배울.. 더보기 [부스트캠프 AI Tech] day10 Review Selenium 브라우저 및 플랫폼에서 웹 응용 프로그램을위한 무료 자동화 테스트 도구 BeautifulSoup에 비하여 동적인 크롤링이 가능하다.(사람이 클릭 하는 것과 마찬가지로 기존의 크롤러와 달리 마우스,키보드 등의 동작과 html과의 상호작용이 편하고 원할하다.) 페이지 정보를 받아오지 않고 실제로 브라우저를 실행시킨다. 후에, 브라우저 드라이버(별도 설치 필요)를 통하여 정보들을 가져오게된다. matplotlib & seaborn matplotlib은 대중적이고, 많은 파이썬 라이브러리의 근간이 된다. 복잡한 구조로 인해 요즘 사용 빈도와 대중성이 떨어지지만 초심자가 사용 해보기 좋은 시각화 라이브러리이다. seaborn은 matplotlib을 기반으로 제공되어, 상호호환이 가능하.. 더보기 [부스트캠프 AI Tech] day5 Review Exception 예상가능한 오류와 예상 불가능한 오류(인터프리터 과정에서 발생하는)가 있다. 프로그램이 종료되는걸 방지하기 위하여, 적절한 Exception Handling을 필요로한다. 예외를 던지는 코드는 좋지 못한 코드이다. 주로 if문은 로직에서의 분기를 의미하고 try/except는 파일 문제에 자주 사용된다. file 크게 text file과 binary file로 나뉘는데, binary file의 경우에는 컴퓨터만 이해가능한 파일로 메모장에서 열면 깨진다. 이에 반해 text file은 메모장으로 읽기가 가능하다. log 핵을 잡거나, 특정 사용자의 비정상적 행위를 감지하고 제지하기 위하여 log를 남겨주는게 좋다. DEBUG -> INFO -> WARNING -> ERROR .. 더보기 [부스트캠프 AI Tech] day4 Review OOP 파이썬은 객체지향언어 중 하나이다. 객체란 action과 attribute로 이루어져 있다. 클래스명을 작성할때에는, camelCase를 따른다. 파이썬 파일구조 파이썬에서 모듈이랑 .py 파일을 의미하고, import하는 순간 특정(내가 지정한) 모듈은 메모리에 로딩된다. import 시에, 모듈전체가 메모리에 로딩 되기 때문에, if name=='main' 을 이용하여 import되어 부속품으로 사용되어지는 모듈이 아니라 그 모듈 자체를 돌릴때 main함수가 실행되게 할 수 있다. 별칭(alias)를 설정하여 보다 간단하게 이름을 바꿀 수 있다. 가상환경 파이썬 관련 설치 모듈들을 가상환경 별로 관리 할 수 있다. 강의 맨 마지막 부에 언급을 해주셔서 따라 했는데 잘.. 더보기 이전 1 2 3 4 5 ··· 10 다음