일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- NLinear
- 오토트레이딩
- MPRO
- mlflow
- HY7714
- 프로바이오틱스
- express
- 프레딧
- AI
- 불법마약특별단속 #부산지방경찰청
- 강화학습
- 벨만방정식
- ML
- node.js
- 제발쉽게좀가르치자
- 강화학습으로주식하기
- pandas
- 엠프로
- transformer
- socket.io
- DL
- 흥미붙이기
- DLInear
- YOLO
- 도커로 깃블로그 만들기
- TimeSeries
- de
- LTSF
- RL
- DataProcessing
- Today
- Total
목록강화학습 (3)
상황파악
나는 추상적인 개념은 어렵다 그래서 계산할 수 있는 데이터로 봐야 이해가 쉽다 난 개발자니까 수식과 추상적인 개념만 가득했던 Q-learning을 임의의 값을 통해 어떻게 변화하는지 살펴보겠다 도대체 Q-learing이 뭐냐? 내가 하는 행동에 대한 가치가 얼마인지를 배우는 것이다 Q = Quality 가치를 배운다 라는게 정확히 무슨 뜻인지 알기위해 강화학습의 기본 개념을 다시 짚어보자 강화학습의 기본 골조는 상황이 주어지고, 그에 맞는 행동을 하고, 보상을 받으면서 배우는 것이다 OX게임을 예시로 들면, 사람은 한줄에 동일한 기호를 채우면 이긴다는 것을 알고 있지만 에이전트는 알지못한다 그냥 알려준 행동에서 고르는 것이다 물론 위 같은 경우는 로직자체가 잘못되어서 이상한 에러를 뱉은 것이다 하지만 ..
제 인생 가치관입니다 저는 근무시간에 열심히 일을 해서 투자금을 마련하고, 컴퓨터는 제가 일하는 동안 주식을 돌려서 제 돈을 불려주는 아름다운 공생관계를 구축하는 것이 이 프로젝트의 목표입니다 Proj Due Date 향후 12주간 프로젝트를 진행할 예정입니다 마감일자가 되면 어떻게든 마무리 짓고 다음 프로젝트로 개선하는 방향으로 마무리 할 겁니다 Proj Goal 강화학습의 이론을 토대로 동작하는 모델을 만든다 모델이 주식 거래를 한다 이걸 24시간 돌리는 환경을 만든다 (내가 잘때 미주를 할 수 있게끔) (돈을 번다) 간단하게 적었지만 나름의 마일스톤인 셈이다 목표 수익률 ML에서 분류 모델의 성능을 평가하기 위한 지표로 AUC 스코어를 쓰는데, 핵심은 이거다 자고로 ML을 썻다면 '랜덤으로 돌려도 ..
공부하다 너무 화가나서 다시 글을 써본다 대체 왜 강화학습을 쉬운 말로, 수식 없이, 이해되기 쉽게 설명하는 사람이 왜 한명도 없나 (물론 이전 내 설명자료 포함. 그래서 더 화남) 수식으로 설명하면 명확하기 때문에 이 분야를 공부하는 사람들의 스타일이 아닐 수 있는건 이해하는데 취미로 한번 해볼까 하는 사람들이 진입하기에는 너무 숨이 막힌다 나처럼 멍청한 사람을 쉽게 가르치는 사람이 도대체가 왜 한명도 없냐 이말이야 덧셈 뺄셈 하다가 갑자기 미분가르치는데 중간 내용 어디갔냐 하면 수식을 보면 된단다 이게 무슨 소리야 대체 그래서 내가 최대한 추리고 추리면서 내용 다 틀려먹더라도 일단 이해가 되기 쉽게 적고 더 공부하면서 틀린 부분을 수정해가야 겠다 아니 공부도 일단 재미가 있어야 할 거 아니냐 이건 뭐..