일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- TimeSeries
- 강화학습
- AI
- 벨만방정식
- de
- 프로바이오틱스
- 흥미붙이기
- RL
- DataProcessing
- socket.io
- node.js
- 프레딧
- LTSF
- 강화학습으로주식하기
- mlflow
- DL
- NLinear
- 불법마약특별단속 #부산지방경찰청
- transformer
- express
- pandas
- 도커로 깃블로그 만들기
- HY7714
- 오토트레이딩
- 제발쉽게좀가르치자
- YOLO
- DLInear
- 엠프로
- MPRO
- ML
- Today
- Total
목록RL (2)
상황파악
나는 추상적인 개념은 어렵다 그래서 계산할 수 있는 데이터로 봐야 이해가 쉽다 난 개발자니까 수식과 추상적인 개념만 가득했던 Q-learning을 임의의 값을 통해 어떻게 변화하는지 살펴보겠다 도대체 Q-learing이 뭐냐? 내가 하는 행동에 대한 가치가 얼마인지를 배우는 것이다 Q = Quality 가치를 배운다 라는게 정확히 무슨 뜻인지 알기위해 강화학습의 기본 개념을 다시 짚어보자 강화학습의 기본 골조는 상황이 주어지고, 그에 맞는 행동을 하고, 보상을 받으면서 배우는 것이다 OX게임을 예시로 들면, 사람은 한줄에 동일한 기호를 채우면 이긴다는 것을 알고 있지만 에이전트는 알지못한다 그냥 알려준 행동에서 고르는 것이다 물론 위 같은 경우는 로직자체가 잘못되어서 이상한 에러를 뱉은 것이다 하지만 ..
공부하다 너무 화가나서 다시 글을 써본다 대체 왜 강화학습을 쉬운 말로, 수식 없이, 이해되기 쉽게 설명하는 사람이 왜 한명도 없나 (물론 이전 내 설명자료 포함. 그래서 더 화남) 수식으로 설명하면 명확하기 때문에 이 분야를 공부하는 사람들의 스타일이 아닐 수 있는건 이해하는데 취미로 한번 해볼까 하는 사람들이 진입하기에는 너무 숨이 막힌다 나처럼 멍청한 사람을 쉽게 가르치는 사람이 도대체가 왜 한명도 없냐 이말이야 덧셈 뺄셈 하다가 갑자기 미분가르치는데 중간 내용 어디갔냐 하면 수식을 보면 된단다 이게 무슨 소리야 대체 그래서 내가 최대한 추리고 추리면서 내용 다 틀려먹더라도 일단 이해가 되기 쉽게 적고 더 공부하면서 틀린 부분을 수정해가야 겠다 아니 공부도 일단 재미가 있어야 할 거 아니냐 이건 뭐..