Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 흥미붙이기
- mlflow
- 제발쉽게좀가르치자
- 강화학습
- 프로바이오틱스
- 강화학습으로주식하기
- transformer
- DLInear
- DataProcessing
- DL
- RL
- MPRO
- de
- 프레딧
- HY7714
- TimeSeries
- 오토트레이딩
- ML
- express
- socket.io
- 도커로 깃블로그 만들기
- NLinear
- 불법마약특별단속 #부산지방경찰청
- LTSF
- 엠프로
- pandas
- 벨만방정식
- YOLO
- AI
- node.js
Archives
- Today
- Total
목록데이터 (1)
상황파악
[Q-learning] 데이터로 설명하기
나는 추상적인 개념은 어렵다 그래서 계산할 수 있는 데이터로 봐야 이해가 쉽다 난 개발자니까 수식과 추상적인 개념만 가득했던 Q-learning을 임의의 값을 통해 어떻게 변화하는지 살펴보겠다 도대체 Q-learing이 뭐냐? 내가 하는 행동에 대한 가치가 얼마인지를 배우는 것이다 Q = Quality 가치를 배운다 라는게 정확히 무슨 뜻인지 알기위해 강화학습의 기본 개념을 다시 짚어보자 강화학습의 기본 골조는 상황이 주어지고, 그에 맞는 행동을 하고, 보상을 받으면서 배우는 것이다 OX게임을 예시로 들면, 사람은 한줄에 동일한 기호를 채우면 이긴다는 것을 알고 있지만 에이전트는 알지못한다 그냥 알려준 행동에서 고르는 것이다 물론 위 같은 경우는 로직자체가 잘못되어서 이상한 에러를 뱉은 것이다 하지만 ..
AI/강화학습
2024. 1. 9. 01:52