일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- TimeSeries
- mlflow
- 흥미붙이기
- 오토트레이딩
- de
- 벨만방정식
- YOLO
- 제발쉽게좀가르치자
- HY7714
- transformer
- socket.io
- LTSF
- node.js
- 강화학습으로주식하기
- 프로바이오틱스
- MPRO
- 불법마약특별단속 #부산지방경찰청
- DL
- 프레딧
- express
- pandas
- DLInear
- ML
- NLinear
- AI
- 엠프로
- RL
- 강화학습
- 도커로 깃블로그 만들기
- DataProcessing
- Today
- Total
목록전체 글 (52)
상황파악
나는 추상적인 개념은 어렵다 그래서 계산할 수 있는 데이터로 봐야 이해가 쉽다 난 개발자니까 수식과 추상적인 개념만 가득했던 Q-learning을 임의의 값을 통해 어떻게 변화하는지 살펴보겠다 도대체 Q-learing이 뭐냐? 내가 하는 행동에 대한 가치가 얼마인지를 배우는 것이다 Q = Quality 가치를 배운다 라는게 정확히 무슨 뜻인지 알기위해 강화학습의 기본 개념을 다시 짚어보자 강화학습의 기본 골조는 상황이 주어지고, 그에 맞는 행동을 하고, 보상을 받으면서 배우는 것이다 OX게임을 예시로 들면, 사람은 한줄에 동일한 기호를 채우면 이긴다는 것을 알고 있지만 에이전트는 알지못한다 그냥 알려준 행동에서 고르는 것이다 물론 위 같은 경우는 로직자체가 잘못되어서 이상한 에러를 뱉은 것이다 하지만 ..
제 인생 가치관입니다 저는 근무시간에 열심히 일을 해서 투자금을 마련하고, 컴퓨터는 제가 일하는 동안 주식을 돌려서 제 돈을 불려주는 아름다운 공생관계를 구축하는 것이 이 프로젝트의 목표입니다 Proj Due Date 향후 12주간 프로젝트를 진행할 예정입니다 마감일자가 되면 어떻게든 마무리 짓고 다음 프로젝트로 개선하는 방향으로 마무리 할 겁니다 Proj Goal 강화학습의 이론을 토대로 동작하는 모델을 만든다 모델이 주식 거래를 한다 이걸 24시간 돌리는 환경을 만든다 (내가 잘때 미주를 할 수 있게끔) (돈을 번다) 간단하게 적었지만 나름의 마일스톤인 셈이다 목표 수익률 ML에서 분류 모델의 성능을 평가하기 위한 지표로 AUC 스코어를 쓰는데, 핵심은 이거다 자고로 ML을 썻다면 '랜덤으로 돌려도 ..
공부하다 너무 화가나서 다시 글을 써본다 대체 왜 강화학습을 쉬운 말로, 수식 없이, 이해되기 쉽게 설명하는 사람이 왜 한명도 없나 (물론 이전 내 설명자료 포함. 그래서 더 화남) 수식으로 설명하면 명확하기 때문에 이 분야를 공부하는 사람들의 스타일이 아닐 수 있는건 이해하는데 취미로 한번 해볼까 하는 사람들이 진입하기에는 너무 숨이 막힌다 나처럼 멍청한 사람을 쉽게 가르치는 사람이 도대체가 왜 한명도 없냐 이말이야 덧셈 뺄셈 하다가 갑자기 미분가르치는데 중간 내용 어디갔냐 하면 수식을 보면 된단다 이게 무슨 소리야 대체 그래서 내가 최대한 추리고 추리면서 내용 다 틀려먹더라도 일단 이해가 되기 쉽게 적고 더 공부하면서 틀린 부분을 수정해가야 겠다 아니 공부도 일단 재미가 있어야 할 거 아니냐 이건 뭐..
MDP 구성요소 이전 내용에서 MDP 구성요소로 상태,행동,보상을 설명했다. 조금 더 자세히 설명하자면 상태, 행동, 보상함수, 상태 변환 확률, 감가율 총 5개의 요소로 구성되어 있다. 상태 (State) 상태와 행동은 에이전트가 현재 환경안에서 어떤 상태에 놓여있는지 (위치는 어디인지, 지금 어디로 이동하고 있는지, 주변에 바람은 어떻게 부는지 등) 같은 관찰 가능한 상태의 집합 ($S$) 이다. 책에서 설명하는 예시를 가져왔다 그리드월드에서 상태값은 좌표값이다. (왜 (1,1) 우측이 (1,2) 가 아니라 (2,1) 인지는 모르겠다) 5x5 행렬이 있다고 했을 때, 그리드월드의 상태 집합은 $S = {(1,1),(1,2),(1,3),...,(5,5)}$ 로 표시할 수 있다. 에이전트는 시간에 따라 ..
참고자료 - https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능 “강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지 wikibook.co.kr --> 설명이 친절하게 잘 되어 있다고 느낌 --> 앞으로 이 책을 통해 공부한 내용들을 정리할 예정임 --> 쓰다보니 책의 표현이 너무 찰떡이라 적절한 대체제가 떠오르지 않아 책에 있는 표현과 예시를 그대로 옮기는 경우가 많이 생겼는데 행여나 문제가 된다면 수정할 예정 강화학습? 이전에 배우지 않았지만 직접 시도하면서 행동과 그 결과..
내 입맛대로 서비스를 구성하기 참 어렵다 오랜만에 이런 코드를 봐서 인지 막막하고 답답하기만 하다 하지만 어쩌겠어 해야지 Quickstart: Install MLflow, instrument code & view results in minutes — MLflow 2.5.0 documentation As a data scientist, your explorations involve running your evolving training code many times. MLflow Tracking allows you to record important information your run, review and compare it with other runs, and share results with other..
큰 내용은 없으니 코드랑 결과만 간단하게 기록 conda create -n mlflow # conda를 통해 mlflow라는 이름을 가진 가상환경을 생성 conda install pip # pip를 쓰기 위해 conda로 설치 pip install mlflow # pip를 이용해 mlflow 패키지 설처 git clone https://github.com/mlflow/mlflow # 공식 가이드에 git에서 clone 하라고 해서 함 python examples/quickstart/mlflow_tracking.py # .py를 실행 cd ./mlruns # landing page 경로를 잡아주기 위해 경로를 변경 # 이 경로에서 안하면 index.html 파일 못찾음 mlflow ui # mlflow를 ..
현재 회사에서 Demand Forecasting 과제를 수행하고 있다 여러 모델들을 사용하며 성능 테스트를 진행중인데, 테스트 기간이 길어질 수록 파라미터 및 버전관리에 어려움을 느끼게 되었다 취업 전에는 토이 프로젝트 형태로 진행되었던 모델링이기 때문에 버전관리나 별도의 코드 형상관리가 필요없었기 때문에 이런 부분에 대해 신경써본적이 없기도 하고, 팀 내 인프라가 갖춰져있지 않은 상황이다 보니 조언을 구할 방법이 마땅치 않았다 물론 팀바팀으로 이런 부분을 전문적으로 관리하는 팀이 있지만, 현재 상황에서 필요한 내용이 정확히 무엇인지 파악하는 과정이 우선시 되어야 필요한 도움을 구할 수 있기 때문에 현재 상황을 바르게 인지하는것이 우선이라 생각했다 (이렇게 만들어진 모델 개수만 1,000개가 넘는다, 현..