AI developer CHoijun

AI developer CHoijun

  • 분류 전체보기 (18)
    • Machine Learning (0)
    • 논문 리뷰 (6)
    • Dacon (0)
    • Mini project (0)
    • Pytorch (3)
    • Reinforcement learning (1)
    • 기타 (2)
    • 로봇팔 연구 (2)
  • 홈
  • 태그
  • 방명록
RSS 피드
로그인
로그아웃 글쓰기 관리

AI developer CHoijun

컨텐츠 검색

태그

CenterSnap hand-eye-calibration #CAMERA calibration #robot calibration #calibration a

최근글

댓글

공지사항

아카이브

Reinforcement learning(1)

  • 강화 학습의 기본 개념

    이번 게시물에서는 강화 학습의 개념에 대해 다루어 보려한다. 강화 학습은 실수와 보상을 통해 학습을 하여 목표를 찾아가는 알고리즘이다. 보상이라는 개념을 통해 weight 와 bias를 학습하며 목적은 최적의 행동양식 또는 정책을 학습하는 것이다. 기본적으로 강화학습은 결정을 순차적으로 내려야 하는 문제에 적용을 한다. 이를 위해서 MDP(Markov Decision Process) 라는 개념을 사용한다. 1.순차적 행동 문제를 MDP로 전환 2.가치함수를 벨만 방정식으로 반복적 계산 3.최적 가치함수와 최적 정책을 찾는다 MP(Markov Process, Chain) : MP는 이산 시간이 진행함에 따라 상태가 확률적으로 변화하는 과정을 의미함. 시간 간격이 이산적이고 현재의 상태가 이전 상태에 영향을..

    2021.03.25
이전
1
다음
티스토리
© 2018 TISTORY. All rights reserved.

티스토리툴바