요약 (Abstract + Introduction)빠르고 비용이 적게 드는 automatic model design ( Single Nvidia G...
요약 (Abstract + Introduction)Automated mobile neural architecture search즉, 모바일에서 사용가능...
요약 (Abstract + Introduction)Sequential model-based optimization(SMBO)를 사용하여 복잡성이 ...
다이내믹 프로그래밍은 계산을 빠르게 하는 것이지, 학습을 하는 것이 아니다. 다이내믹 프로그래밍으로...
예측 : 에이전트가 환경과의 상호작용을 통해 주어진 정책에 대한 가치함수를 학습하는 것 ex) 몬테카를로 ...
몬테카를로 예측의 단점 : 실시간이 아니다. 즉, 가치함수를 업데이트하기 위해서는 에피소드가 끝날 때까...
https://blog.naver.com/za_bc/221549631328위 글에서 말했듯, 강화학습의 알고리즘 흐름은 결국 살사로 발...
ε-탐욕정책에 따라 움직인 살사에서 탐험으로 인해 큐함수의 값이 낮아지게되면, 이후 다시 그 상태에 에...
앞서 이야기한 다이내믹 프로그래밍의 한계점1. 계산 복잡도 2. 차원의 저주3. 환경에 대한 완벽한 정보 필...
앞서 이야기했던 그리드월드 문제에서, 장애물 세모가 늘어나고, 움직이는 경우에 대한 예제이다.살사 알고...
요약 (Abstract + Introduction)neural architecture search를 위한 MONAS frameworkaccuracy + c...
요약 (Abstract + Introduction)Simple and Efficient method NAS, based on continuous optimizati...
요약Neural Architecture Search에서 사용되는 weight sharing에서, 과연 공유되는 wegith가 정말 중요...
https://blog.naver.com/za_bc/221595348393위 글은 샤오미에서 NAS로 만든 super resolution 구조들의 ...
https://blog.naver.com/za_bc/221595348393위 글은 샤오미에서 NAS로 만든 super resolution 구조들의 ...
공통점1. Feature extractor - cell structure - sub-pixel upsampling 으로 이루어져있고, cell structur...
요약기존 Darts에서, CIFAR로 학습된 8개의 cell을 ImageNet을 위해 20 cell로 바꾸면, Depth Ga...
policy gradient : 인공신경망으로 정책을 근사하고 목표함수의 기울기를 따라 정책신경망을 업데이트 하는...
Deep Learning Framework : Tensorflow, Pytorch, Caffe, Keras ...Keras : 텐서플로우를 감싸는 ...
가치 이터레이션 : 반복적으로 가치함수를 발전시켜서 최적에 도달하고 최적 정책을 구할 수 있다. 정책 이...
정책 이터레이션 : 벨만 기대 방정식을 사용해 MDP로 정의되는 문제를 푸는 것정책 : 에이전트가 모든...
순차적 행동 결정 문제1) 순차적 행동 문제를 MDP를 통해 수학적 정의(목표:에이전트가 받을 보상의 합...
1. 벨만 기대 방정식 : 현재 상태의 가치함수와 다음 상태의 가치함수 사이의 관계의 식을 나타내는 방정식...
가치함수는 함수이기때문에, 입력과 출력이 필요하다.입력(상태) -> 가치함수 -> 출력(받을 보상의 ...
에이전트는 MDP를 통해 최적 정책을 찾는다.이때, 어떻게 최적정책을 찾을까?현재 상태에서 앞으로 받을...
MDP : 순차적으로 행동을 계속 결정해야하는 문제를 수학적으로 표현한 것구성요소 : 상태, 행동, 보...