상황파악

Opt Arch for SLM with Diffusion

otch80 — Mon, 5 Jan 2026 13:58:29 +0900

https://huggingface.co/blog/codelion/optimal-model-architecture

The Optimal Architecture for Small Language Models

I just don't think your depth-width results have enough samples for what you have tried to fit to them, it's like you tried to create a narrative that exactly fitted each one with no noise, but with 7 results and a complicated explanation it's like you ove

huggingface.co

SLM을 위한 다양한 연구 중 하나

간단 요약

배경: 제한된 파라미터(70M) 내에서 모델을 어떻게 설계할 것인가?
통찰: 실험 결과, 모델을 옆으로 넓히기(Wide)보다 위로 깊게(Deep) 쌓는 것이 지식 밀도를 높이는 데 유리함을 밝혀냄
핵심 수치: 은닉층 차원(Hidden Dimension)은 최소 512 이상이어야 하며, 레이어는 32개 이상 쌓았을 때 복합적인 추론 성능이 급격히 향상
결과: 모델을 깊게 쌓으면 GPT 방식으로는 너무 느려지는데, 이를 Diffusion 아키텍처로 해결함으로써 '높은 지능'과 '빠른 속도'를 동시에 잡음

궁금증

Q. SLM에서 너비(Width)보다 깊이(Depth)가 더 중요한 이유는 무엇인가?
A. 동일한 파라미터 예산 내에서 레이어를 깊게 쌓는 것(예: 32개 레이어)이 모델의 복합 추론 능력을 높이는 데 유리함
다만, Hidden Dimension이 특정 임계값(예: 512) 이상은 되어야 성능이 급격히 향상된다고 함

Q. "깊이" 라는 접근이 왜 등장했는가?
A. SLM의 성능을 극대화하려면 레이어 수가 많아져야 함. 하지만 깊어진 Layer 만큼 Forward Pass 비용이 비싸짐.
이때, 기존 GPT 방식인 Auto Regression을 사용하면 속도 저하가 불가피함. 실험적으로 레이어 수와 성능이 관계가 있 의미가 있다는 것을 알았기에, 이를 해결하기 위해 병렬처리에 유리한 Diffusion 아키텍처를 제안함.

Q. Diffusion 모델이 GPT보다 '병렬 처리'에 유리하다는 것은 어떤 의미인가?
A. GPT는 다음 토큰을 만들 때 이전 토큰이 반드시 필요한 '시간적 직렬 구조'를 가짐.

반면, Diffusion은 문장 전체 위치(Matrix)의 노이즈를 한꺼번에 업데이트하는 '공간적 병렬 구조'를 가짐.

전체 연산량은 (레이어 수) × (반복 횟수)인데, Diffusion은 모델이 깊어져도 전체 문장을 완성하는 데 필요한 반복 횟수(Sampling Steps)를 획기적으로 줄일 수 있어, 결과적으로 GPT보다 생성 속도가 빠름

Q. Diffusion Model 이 병렬처리하기 위해서는 크기가 고정되어 있어야 하는가?
A. 두 모델은 문장을 언제 끝낼지, 그리고 얼마나 길게 만들지를 결정하는 철학 자체가 완전히 다름

GPT: 내재적 신호에 의한 자율 종료 (Internal Signal)

문맥상 문장이 끝날 시점이 되면 모델이 [EOS] 를 출력. 시스템은 이 토큰을 확인하는 즉시 생성 종료.
사용자가 제한을 두지 않는다면, 모델은 이론적으로 메모리가 허용하는 한 무한대로 토큰을 생성할 수 있음
다만, 모델이 논리적 오류에 빠지면 [EOS]를 뱉지 못하고 비슷한 말을 무한히 반복하는 '무한 루프' 현상이 발생할 수 있음

Diffusion: 외부 설정에 의한 고정 종료 (Fixed Budget)

사용자가 "10번의 디노이징 스텝을 거쳐라"라고 설정하면, 타임스텝이 0 되는 순간 연산이 종료. 모델은 주어진 '시간 예산' 안에서 최선을 다해 결과물을 닦아내는 방식.
생성될 문장의 길이는 모델이 결정하는 것이 아니라, 처음에 투입한 노이즈 행렬(Matrix)의 크기에 의해 미리 결정됨. 128토큰 크기의 캔버스를 넣었다면, 모델은 딱 그만큼의 공간 안에서 그림을 완성함
생성이 언제 끝날지 초 단위까지 정확히 예측할 수 있어, 실시간 서비스 운영 시 시스템 자원을 배분하고 최적화하는 데 압도적으로 유리함.

Q. 왜 텍스트는 디퓨전이 어려웠나?
A.

이산적 데이터(Discrete Data)의 난제: 픽셀과 달리 텍스트는 딱딱 끊어지는 토큰 형태라 노이즈를 섞고 복원하는 과정에서 문법이 깨지기 쉬움.
해결책 (Discrete Diffusion): 억지로 벡터를 흐리게 만드는 가우시안 방식이 아니라, 단어를 가리거나(Masking) 무작위로 교체하는 방식을 최적화하여 언어의 이산적 특성을 극복함.

Q. GPT도 결국 Position Encoder를 사용하는데, 이는 토큰의 위치에 따른 의미를 파악하기 위함이다. 결국 각 토큰은 이산적이라기보다는 다른 관점에서의 '연결성'이 굉장히 중요하다는 것인데, 이 존재 자체가 Diffusion의 일종의 snapshot 방식과 유사한 것 아닌가?
A.

인과관계의 엄격함: GPT는 Position Encoder를 쓰면서도 Causal Masking을 통해 "과거가 미래를 결정한다"는 인과관계를 엄격히 학습하여 논리적 서사를 만듬
양방향 참조의 위험: 반면 Diffusion은 모든 토큰이 서로를 참조하는 양방향(Bidirectional) 구조라 전체 구조 파악에는 유리하지만, 아직 결정되지 않은 미래의 '노이즈'를 참고하다 보니 세밀한 인과 논리가 약해질 수 있음
이동 경로의 문제: 연결성이 중요하다는 점은 같지만, GPT는 항상 의미 있는 '단어 점' 위를 이동(softmax)하고, Diffusion은 그 사이의 '의미 없는 빈 공간(유령 벡터 구역)'을 가로질러야 하므로 복원 과정이 더 까다롭다는 결론에 도달함

Q. 임베딩 공간의 '의미 없는 빈 공간(Ghost Vector Area)'이란 무엇인가?
A. 단어들은 고차원 벡터 공간(Embedding Space) 내의 특정 좌표, 즉 '점(Discrete Points)'으로 존재함.

이때 '의미 없는 빈 공간'이란 단어와 단어 사이의 광활한 구역 중 어떤 단어(토큰)도 할당되지 않은 데이터의 공백 지대를 의미함

Q. 왜 Diffusion에서 문제가 되는가?
A.

이동 방식의 차이: GPT는 매 단계 단어장 내의 확정된 점들로만 점프(Discrete Jump, tokenzier 내 softmax를 통한 확률적 샘플링)하며 이동하지만, Diffusion은 노이즈 상태에서 깨끗한 상태로 서서히 수렴(Denoising)하는 과정을 거침
경로의 이질성: 이 정제 과정에서 모델이 다루는 중간 단계의 벡터들은 '사과'도 아니고 '바나나'도 아닌, 두 단어 사이의 모호한 공간(유령 벡터 구역)을 지나게 됨
유령 벡터가 초래하는 문제점
- 언어적 불연속성: 이미지 픽셀은 0.5(회색)라는 중간값이 시각적으로 의미를 갖지만, 언어 임베딩에서 '고양이'와 '자동차'의 중간 벡터값은 언어적으로 아무런 의미가 없는 쓰레기 값(Garbage Value)인 경우가 대부분
- 복원 난이도 상승: Diffusion 모델이 이 빈 공간에 머무는 시간이 길어질수록, 모델은 자신이 지금 어떤 문맥을 다루고 있는지 갈피를 잡지 못하게 되어 문법 붕괴나 할루시네이션(Hallucination)을 일으킬 확률이 급격히 높아짐

Q. 이걸 어떻게 해결하는가?
A. Dhara-70M: Discrete Diffusion

메커니즘: 원본 문장에서 특정 비율의 토큰을 고정된 [MASK] 토큰으로 가리거나, 아예 단어장($V$) 내의 다른 무작위 토큰으로 교체(Corruption)
효과: 이 방식은 임베딩 공간 내에서 '사과'와 '배' 사이의 모호한 중간 좌표(유령 벡터)를 계산할 필요가 없게 만듭니다. 모델은 항상 '정확한 단어' 혹은 '명확한 [MASK] 신호'라는 이산적인 입력만을 받기 때문

Q. Softmax를 사용한다는 것인지?
A.
- GPT의 Softmax: 현재의 맥락에서 다음에 올 단어 하나를 확정 지음
- Dhara의 Softmax: 현재 문장 전체에 흩어진 [MASK]와 '무작위 토큰'들을 보고, 그 자리에 원래 있어야 할 진짜 단어가 무엇일지 확률 분포를 추론
- Iteration: 한 번의 Softmax로 끝내지 않고, 여러 스텝을 거치며 [MASK]였던 자리들이 서서히 가장 높은 확률을 가진 실제 단어들로 채워짐
- 경로 제어: 모델의 입출력은 항상 단어장($V$)에 정의된 인덱스들에 대한 확률 분포로만 이루어짐
- 안전지대 유지: 모델이 연산하는 모든 단계에서 다루는 정보는 "이 자리는 '사과'일 확률이 80%, '포도'일 확률이 20%다"라는 식의 단어 기반 정보임. 따라서 어느 단어도 정의되지 않은 '유령 벡터 구역'에 발을 들일 이유가 사라짐

Neo4j Certifications 공부 - 1

otch80 — Wed, 12 Nov 2025 19:15:45 +0900

연초부터 프로젝트를 통해 공부한 Neo4j에 대한 자격증이 있음을 알게되었다

해당 자격증이 어떤 내용을 담고 있는지, 그리고 이를 취득하기 위해 어떤 준비를 해야 하는지 기록해보려 한다

참고로 자격증은 Neo4j 아카데미에서 발급해고, 아래 링크를 통해 확인할 수 있다

https://graphacademy.neo4j.com/

Free, Self-Paced, Hands-on Online Training

Learn how to build, optimize and launch your Neo4j project, all from the Neo4j experts.

graphacademy.neo4j.com

종류

Neo4j cetification 은 총 2가지로 Neo4j Certified Professional 과 Neo4j graph Data Science Certification 이 있다.

출처 : graphacademy

두 자격증에 대한 전반적인 내용은 다음 링크에서 확인할 수 있었는데

https://neo4j.com/blog/developer/passing-two-neo4j-certification-exams/

Start Your Free Neo4j Certified Journey - Graph Database & Analytics

With the online GraphAcademy, it's fun and easy to learn how to build graphs with Neo4j -- and get certified along the way.

neo4j.com

AWS 의 Professional 레벨과는 다르게 Graph DB에 대한 이해를 기반으로 한 내용으로, 입문 과정으로 보여진다

해당 자격증은 특이한 점이 있는데 바로 응시료가 무료라는 점이다

또한 시험통과 커트라인은 80점으로, 해당 점수에 도달하지 못하면 24시간 이후에 재응시를 할 수 있다고 한다

표를 통해 내용을 살펴보자

종류	Neo4j Certified Professional	Neo4j graph Data Science Certification
난이도	초급 - 중금	중급 - 고급
합격 컷트라인	80%	80%
제한시간	60분	60분
문제수	80문제	40문제
문제유형	Graph 아카데미에서 제공하는 recommendations dataset 기반의 문제를 해결하기 위한 Cypher 작성	Neo4j Graph Data Science 라이브러리 및 워크플로우, 알고리즘 활용
재응시 조건	24시간 뒤 재응시 버튼 활성화	좌동
응시비용	무료	무료

자격증의 난이도 보다는 많은 사람들이 Graph DB에 대해 인지도와 이해도를 높이기 위한 제도인 것 같다

우선 Certified Professional 취득을 위해 하나씩 공부해보자

실무 속 수요예측 모델링 회고 - 1

otch80 — Sat, 1 Nov 2025 21:20:14 +0900

한참 LLM에 관심이 많은 요즘 ML에 대한 본질을 점점 잊어가는 기분이 듭니다

현재의 상황을 점검하기 위해 회고를 하며 놓치고 있는 것은 무엇인지, 예전에는 어떤 마음으로 일을 했었는지 되짚어보려 합니다

사족으로 데이터 사이언티스트로써 업무를 수행하는 것은 정말 많은 창의력과 에너지를 요구하는 것 같습니다

쉽게 해결할 수 있는 다양한 방법이 있음에도 자존심 때문에 어려운 기술에 도전해보는것

어려운 문제지만 간단히 나아가는 방법

이 중간 타협점을 찾는것이 참 쉽지않습니다

시작부터 다른길로 샜는데, 다시 집중해보겠습니다

풀어야 할 문제

우선 저는 유통에서의 수요예측 문제를 해결해야 했습니다

저에게 주어진 일은 명료했습니다

물건을 팔기위해 발주를 넣어야 하는데, 얼만큼 주문을 넣어야 할까요?

아마 많은 자영업자분들이 공감하실 딜레마일 것 같습니다

제가 이 문제를 어떻게 해결했는지 회상해보려 합니다

[문제 상황]

매일 아침마다 각각의 상품들을 발주 넣고 있습니다. 이 많은 물건을 정확히 예측해서 발주를 넣는게 여간 어려운 일이 아닙니다.고객들이 많이 물건을 사줄때도 있고 그렇지 않을때도 있습니다.

고객들이 물건을 구입하지 않으면 폐기처분을 해야 하는데, 이게 다 돈입니다. 그래서 무작정 많이 발주를 넣을 수 없습니다.
그렇다고 너무 적게 발주를 넣으면 고객분들이 찾아오셨을때 물건을 구입하실 수 없습니다.
빈손으로 돌아가는 상황이 반복되면 아무도 우리 가게를 찾지 않을 것 같습니다.

다른 일들도 많은데 아침마다 이런 고민을 하는것이 가게를 운영하는 점에 있어서 큰 고충입니다.
과하지도 않고 적지도 않은 적절한 수량만큼 정교하게 발주를 넣을 수 있으면 좋겠습니다.

저는 식료품에 대한 수요예측을 진행하다 보니 자연스레 유통기한에 대한 제약이 생겼습니다

또한 발주 이후 입고까지의 리드타임을 함께 고려해야 해서 어느정도의 시간 텀도 발생합니다

많은 분들과 함께 이 문제를 풀기위해 노력했지만 제 관점에서, 모델링을 위해 어떤식으로 문제를 해결하려 했는지 적어보겠습니다

우선 모델링을 위해서는 타겟값 Y가 있어야 합니다. 아마 이 값이 제가 풀어야 할 문제겠죠

주변에서 흔히 볼수있는 모습으로 설명해보겠습니다

유통기한이 당일 까지인 바나나를 발주를 넣는다고 가정해봅시다

주말에 발주를 넣은 12개의 바나나가 월요일에 도착해서 그날 총 10개가 팔렸습니다. 그러면 팔리지 않은 2개의 바나나는 폐기처분 됩니다.

수요일에 18개를 발주 넣었지만 12개가 팔려서 폐기가 6개가 났습니다.

이럴줄 알았으면 14개만 발주넣어서 폐기를 줄일껄 그랬습니다

결과를 기반으로 문제에 접근하면 참 마음이 편합니다

그런데 이렇게 될 줄 누가 알았을까요?

아무도 모르기 때문에 확률적으로 접근할 수 밖에 없습니다

자, 폐기는 알겠는데 기대판매수량은 무엇일까요?

바로 월요일에 2번 나눠서 제품이 입고되기 때문에 발생하는 개념입니다

위 그림을 통해 살펴보겠습니다

일요일 오전 중 바나나 12개 발주를 넣습니다. 해당 발주분은 다음날인 월요일에 2번에 나눠서 오전 6시, 오후 6시에 입고가 됩니다.

이때 오전 6시에 입고된 6개의 바나나가 오후 6시 추가 입고가 되기 전에 품절이 되어 버리면, 다음 입고까지 물건을 팔고싶어도 팔 수 없는 상황이 됩니다.

이 시간동안 몇개를 더 팔수 있었을 것이라는 기대값을 시스템적으로 산출합니다

이 값이 "기대" 판매수량 입니다.

쉽게말해, "발주 더넣을껄" 이라는 속마음을 고급스럽게 표현했다고도 볼 수 있겠습니다

위 조건만 놓고 본다면 상당히 당황스러울 수 밖에 없습니다

배송이 익일 자정에 도착하여 판매가 가능한 형태가 아닐뿐더러 현실적으로 판매에 대한 외부 제약이 많기 때문입니다

아마 이 외의 많은 요인으로 인해 많은 회사에서 수요예측은 가이드로써 활용되는 것 같습니다

범위를 발주 수량에 대한 가이드로써 제공하고, 정확한 수량은 사용자에게 맡기는 시스템이 사실 가장 현실적일 것 같습니다

하지만 서두에서 말한것 처럼, 쉽게 해결할 수 있음에도 어렵게 풀어나가는 것이 또 낭만아닐까요

회사에서는 반기지 않을 수 있지만, 이렇게 기가차는 문제를 또 해결한다면 그만큼 짜릿한게 어딨겠습니까

저의 타겟값은 판매량이었습니다

다음 글에서 본격적으로 모델링에 대한 내용을 다뤄보겠습니다

이반 일리치의 죽음 느낀점

otch80 — Sat, 16 Aug 2025 17:00:34 +0900

호랑이는 죽어서 가죽을 남기고 사람은 죽어서 이름을 남긴다.
사람이 죽으면 이름으로 기억된다는 얘기다. 그 이름을 이루는 많은 기억과 감정들이 있을 것이다.

하지만 이반 일리치는 다른 사람들에게 자리로 기억되었다. 그의 직책, 그의 터전, 그가 죽기 전까지 괴로워했던 방까지. 어떤 사람이었는지에 대한 기억은 세심하게 다루지 않는다. 이미 행동으로 다른 사람의 심정을 이해할 수 있기 때문일지도 모른다.

그렇다면 사람은 어떤 것으로 기억이 되는가?

나는 그사람이 진심을 다했던 무언가로 기억된다고 생각한다. 나눔을 실천했던 사람, 약탈과 강요를 일삼았던 사람, 조용히 지냈던 사람. 너무 당연하다.
그 사람의 행동이 모여 그 사람의 이름으로 불리운다. 하지만 생각해 보면 이름이라는 것은 너무나 한계가 명확하다. 동명이인이라는 단어가 존재하는 것만 봐도 알 수 있다.

삶의 끝에서 주마등이 스쳐가는 것, 평범한 삶이 비극으로 치부되는 것, 옳다고 믿었던 사실들이 등을 져버리는 것, 그리고 죽음을 받아들임으로써 죽음에서 해방된다고 믿는 것. 사람의 생각은 너무나 어렵다. 그래서 철학이 깊은 것 같다. 복잡함 속에 단순함이 있다고 했던가. 진심으로 믿었던, 나라는 존재의 본연 그 자체였던 마음속의 소리. 그것은 정말 명료하고 단순하다. 물론 그 배경은 깊고 구불구불한 사실들이지만, 마음속에서 우러나온 농축된 소리는 그 어떤 문장보다 간결하다.

그렇다면 인생을 살아감에 있어서 정말로 귀 기울여야 하는 것은 복잡한 윤리와 이해관계가 아닌, 내 목소리가 아닐까. 스스로를 외면하는 사람이 진실로 남을 바라볼 수 있을까. 나아가 정말 삶을 정면으로 바라보며 살아갈 수 있을까. 결국 인생은 마지막 시점에 도달할 것이다. 인생이라는 한 가지 길을 걸어왔지만, 어떤 길을 걸어왔노라는 너무나 순수한 나의 어린 시절이 아닐까.

그것이 이반 일리치가 혐오한 거짓을 드러낼 수 있는 가장 저렴한 방법이 아닐까?

[Q-learning] 데이터로 설명하기

otch80 — Tue, 9 Jan 2024 01:52:14 +0900

나는 추상적인 개념은 어렵다

그래서 계산할 수 있는 데이터로 봐야 이해가 쉽다

난 개발자니까 수식과 추상적인 개념만 가득했던 Q-learning을 임의의 값을 통해 어떻게 변화하는지 살펴보겠다

도대체 Q-learing이 뭐냐?

내가 하는 행동에 대한 가치가 얼마인지를 배우는 것이다

Q = Quality

가치를 배운다 라는게 정확히 무슨 뜻인지 알기위해 강화학습의 기본 개념을 다시 짚어보자

강화학습의 기본 골조는 상황이 주어지고, 그에 맞는 행동을 하고, 보상을 받으면서 배우는 것이다

OX게임을 예시로 들면, 사람은 한줄에 동일한 기호를 채우면 이긴다는 것을 알고 있지만

에이전트는 알지못한다

그냥 알려준 행동에서 고르는 것이다

물론 위 같은 경우는 로직자체가 잘못되어서 이상한 에러를 뱉은 것이다

하지만 중요한 것은 여러 시도를 하면서 그에따른 보상을 받는 과정을 반복하면서 배워나가는 것이다

어쨋든 큰 틀은, 결국 행동에 따른 평가를 받는다는 것이다

에이전트는 결국 이러한 평가를 받으면서 '어떻게 하면 좋은 평가를 받을 수 있을지'를 고민해야 한다

상태와 보상은 환경이 에이전트에게 주는 정보다

그렇다면 에이전트가 고민해야 할 부분은 이렇게 볼 수 있을거다

내가 한 행동이 보상을 받는데 과연 도움이 될까?

도움이 된다는 것을 수치로 표현해서, 얼만큼의 가치가 있는 것일까?

그걸 계산하는 것이 가치함수인 것이다

행동의 가치를 계산하는 가치함수라는 존재는 인지했다

그렇다면 그 함수는 어떤 식으로 가치를 평가한다는 것일까?

오늘도 어김없이 등장하는 AI 선생님의 도움을 받아보자

Q-learning을 위해서는 4가지 준비물이 필요하다

상태 및 보상을 알려주는 환경, 동작을 수행 할 에이전트, 에이전트가 수행할 행동, 그리고 Quality (가치) 가 얼마인지 계산해서 저장해둘 Q-Table

AI 선생이 (1,1) 에서 시작해서 한칸씩 탐색해가며 (4,4)로 이동하는 과정을 그려보자

이때 난 몇가지 정의를 할 것이다

에피소드	AI 선생이 (4,4) 에 도착할 때 까지 (1 Epoch라고 보면 이해가 쉽다, 물론 이동 횟수를 제한하는것도 가능하다)
보상	(4,4) 도착 : 10 이외 모든 행동 : -1
학습률	0.1 (보상을 얼만큼 적용할 것인지, learning rate)
Q-Table	모든 상태에 따른 행동의 가치 값
감가율	0.9 (0~1 사이의 값) 미래시점으로 갈 수록 현재랑 얼만큼 동떨어저 있는 정도 (10년전 1억이랑 지금 1억이랑 같냐? 의 맥락)

최초 (1,1) 상태에서의 수행할 수 있는 행동은 (상, 하, 좌, 우) 4가지이다

하지만 아무런 시도를 하지 않았기 때문에 보상을 받은 내용이 없으므로 0으로 초기화 된 값들이다

그러면 아무거나 고른다 (무작위 행동)

참고로 이 행동 선택 단계에 입실론 그리디가 사용된다

(매 행동 선택 직전에 생성한 랜덤 값이, 사전에 정의한 입실론 값 보다 작으면 랜덤 선택.

이렇게 하면 탐색을 조금 더 많이 함 = 다양하게 배움)

[에피소드 1] 첫번째 행동으로 '하' 를 골랐다고 가정하자

그렇다면 AI의 위치는 (1,1) -> (1,2) 로 이동했다 (인덱스 개념은 잠시 빼두자)

이때의 '하' 라는 행동의 상태값은 (1,2) 가 될 것이고, 그에 따른 보상값은 -1 이다. ((4,4) 도달 외 모든 행동의 보상값은 -1)

최초 (1,1) 에서의 '하' 액션의 가치는 0 인 상태에서, -1의 보상을 받게되었을 때 즉시 그 행동의 가치를 업데이트 할 수 있다

개인적으로 Q-learning이 어렵게 느껴졌던 이유가 Policy Gradient에서는 에피소드가 끝나고 일괄 업데이트를 했었는데 여기서는 step 단위로 이전 행동에 대한 평가를 한다는 차이가 있어서 였다.

그게 어떻게 가능한거지? 하는 생각이 머릿속을 떠나지 않았기 때문이다

Update 로직은 아래와 같다

아래에서 상세히 설명할 테니 간단하게 맥락만 훑고 가자

기존의 현재 가치 (현재 상태에서 수행한 행동의 가치) +학습률 x (보상 + 시간가치(0~1 값) x 미래가치 - 현재 가치) 로직으로 업데이트가 된다

쉽게말해 받은 보상을 보고 잘 했냐 못했냐를 즉각적으로 기록한다고 보면 된다

다시 예시로 돌아와서

0이었던 (1,1) 상태에서의 '하' 의 행동은 위 수식에 따라

0 + 0.1 x (-1 + 0.9 x 0 + 0} = 0.1 x ( -1) = -0.1

의 값을 가진다

그래서 위의 Q-Table의 (1,1)의 '하' 행동의 가치는 보상 -1을 받음으로써 -0.1의 가치로 업데이트 된다

다음 스텝에서 (1,2) 에서 보상이 0 밖에 없으니 랜덤으로 골랐는데 다시 (1,1)로 갔다고 가정하자

그럼 아까와 같은 맥락으로 (1,2) 상태에서 '상' 행동의 가치는 -0.1로 업데이트 된다

(1,1) 에서 (2,1) 로 이동하면 '우' 행동의 가치는 -0.1로 업데이트 된다

아니 그럼 무슨 행동을 하기만 하면 마이너스로 되어버리는데, 언제 저 행동들이 좋은 행동이었는지 알 수 있는가 하면

(4,4) 에 도착했을때 +10 만큼의 보상을 받는데, 이 보상이 계속 반복적으로 학습을 하면서 모든 상태에 영향을 미치게 된다

AI가 (4,3) 상태에서 '하' 행동을 고르면서 (4,4) 에 도착했다고 가정하자

이 과정동안 많은 액션을 수행했을 것이고 동시에 step 마다 Q-table이 업데이트 되었을 것이다

이제 +10의 보상을 받았으니 (4,3) 상태에서 '하' 행동의 가치는

0 + 0.1 x { 10 + 0.9 x 0 + 0} = 1

(4,3) 상태에서 '하' 행동의 가치는 1로 업데이트 된다

(3,4) 상태에서 '우' 행동을 했다면 동일하게 1로 업데이트 되었을 것이다

AI가 (4,4)에 도달함으로써 한번의 에피소드가 마무리 되었다

자 이제 예시를 봤으니 Q-value가 어떻게 업데이트 되는지 조금 더 자세히 알아보겠다

똑같은 수식을 예시로 설명하기 위해 조금 중복적으로 표시했다

첫번째 New Q(s,a). 업데이트 대상 (타겟값)이다

s 상태에서 a 행동을 하는 것의 가치를 업데이트 하려는 수식인 것이다

아까의 예시로 보자면 (1,1) 상태에서의 '하' 행동인 "0" 이 업데이트 대상인 것이다

두번째인 Q(s,a) 도 동일한 값이다. 왜냐하면 현재 값에다가 변화를 더해야 하기 때문이다

아래 alpha는 학습률, 우리가 흔히 사용하는 learning rate 이다

R(s,a)는 내가 상태 s ((1,1)이었던 것) 에서 행동 a ('하' 행동 이었던 것) 을 했을 때, 환경이 에이전트에게 알려준 보상 값 (-1) 이다

gamma는 감가율 (학습률) 로, 미래 가치를 감소시키기 위한 수치다

만약 강화학습의 기본적인 개념을 어느정도 이해했다면 여기까지의 컨셉은 어렵지 않을 것으로 생각된다

그 다음 max Q ~ 이 부분이다

여기는 (1,1) 상태에서 '하' 행동을 하면 (1,2) 라는 새로운 상태가 되는데,

이때 역시 마찬가지로 에이전트가 수행할 수 있는 행동은 (상, 하, 좌, 우) 4가지이다

"새로운 상태에서 할 수 있는 행동들의 가치들 중에서 가장 큰 가치값은 얼마인가?" 를 찾는 부분이다 (argmax 아님)

결국 내가 다음상태에 진입했을 때 얻을 수 있는 최선의 행동은 어느정도 가치가 있냐 라는 부분이다

이후 시간가치 x 미래가치 로 어느정도 현시점 가치로 환산을 한 후, 현재의 가치를 빼주는 것인데

이 부분의 정확한 이유는 논문을 안읽어서 잘 모르겠지만 감히 추측을 해보자면

에이전트가 수행한 행동이 좋은 결과를 기대할 수 있는 상태로 안내해준 것이라면, 뭐가 되었든 칭찬받아 마땅하다 라는 것이 아닐까 싶다

(강화학습은 정답은 몰라도 해답은 안다 - 출처 : 내 생각)

물론 좋은 상황에서 죽을 쑤는 경우는 강화학습 뿐만 아니라 일상생활에서도 어렵지 않게 목격할 수 있기에 그렇게 이상한 논리는 아닐 것이다

자, 결국 이러한 수식을 통해 어떤 상태에서의 행동의 가치는 계산할 수 있게 된다

갑자기 뜬금없이 등장한 수식

벨만 방정식이다

그렇게 이해가 안되던 벨만 방정식이었는데, 다시 보니 이해가 될 것 같다

현재의 가치는 현재의 정책을 따랐을때의 가치는 주어진 보상과 다음 시점의 값으로 계산할 수 있다는 것이다

다시 돌아와서

아마 보면서 느껴지겠지만 Q-learning 역시 모든 상태에 대한 행동들이 매핑된 테이블이 필요하다

상태와 행동 이 많아지면 필요한 메모리가 늘어난다

그렇기에 바둑과 체스같은 경우의 수만 해도 Q-learning으로 풀어내기 어려운 것이다

이러한 메모리 문제를 해결한 것이 신경망을 사용한 Deep Q-learning 이다.

신경망을 쓰면 해결이 된다고 하는데, 아직까지는 공부중이라 원리는 잘 모르겠다

그래도 해당 내용 역시 예시를 통해 이해하기 쉽게 설명하도록 하겠다

Q-learning Episode Sample

1 Episode 완료 이후 Q-Table

최단경로 학습 후 Test

최단경로를 학습하는데 총 57번의 episode가 수행되었다

Toy Proj. 강화학습으로 주식하기

otch80 — Thu, 28 Dec 2023 00:07:05 +0900

제 인생 가치관입니다

저는 근무시간에 열심히 일을 해서 투자금을 마련하고, 컴퓨터는 제가 일하는 동안 주식을 돌려서 제 돈을 불려주는 아름다운 공생관계를 구축하는 것이 이 프로젝트의 목표입니다

Proj Due Date

향후 12주간 프로젝트를 진행할 예정입니다

마감일자가 되면 어떻게든 마무리 짓고 다음 프로젝트로 개선하는 방향으로 마무리 할 겁니다

Proj Goal

강화학습의 이론을 토대로 동작하는 모델을 만든다
모델이 주식 거래를 한다
이걸 24시간 돌리는 환경을 만든다 (내가 잘때 미주를 할 수 있게끔)
(돈을 번다)

간단하게 적었지만 나름의 마일스톤인 셈이다

목표 수익률

ML에서 분류 모델의 성능을 평가하기 위한 지표로 AUC 스코어를 쓰는데, 핵심은 이거다

자고로 ML을 썻다면 '랜덤으로 돌려도 너보다는 잘맞추겠다' 라는 소리를 듣는건 부끄럽게 생각해야 한다

같은 맥락으로 나는 내가 직접 거래한 주식의 수익률을 목표 수익률로 잡겠다

ROC Curve

당당하게 올려보는 수익률

23년 1년이 안되는 시간동안 굴려본 자산의 수익률은 6.56% 정도 된다

생각보다 볼륨이 컸던 시장의 상승세와 비교해본다면 랜덤이나 마찬가지라고 생각되기 때문에 이보다 좋은 비교 지표는 없다고 본다

고로 이 프로젝트가 끝나면 내 RL 모델은 나에게 적어도 투자금의 6.56%는 순 이익으로 돌려줘야 할 것이다

적다보니 깨달았는데 갑자기 반말을 하고 있었다. 계속 하겠다

먼저 할거

아마 기술쟁이 중에 자기 기술로 돈 벌어보겠다는 사람이 한둘이 아닐거다

고로 이미 잘 만들어둔 선행연구를 참고해서 어떤 방식으로 접근을 했는지 조사한다

출처 - DBPia

꽤 빡빡한 조건을 걸었는데도 벌써 읽을 자료가 14개나 된다

아마 구글 스칼라에 검색하면 더 나올거 같다

나는 영어가 아직 익숙하지 않으니 국내 논문을 읽어보고 방향을 정할 것이다

내가 논문을 읽으려는 목적은 3가지를 얻기 위해서다

논문을 읽어서 얻으려는 것

접근법
사용 알고리즘

step 1. 접근법

회사에서 데이터 분석과 모델링을 반복하다보니 얻게된 지식이 있는데, 남이 잘 만들어 둔 방법을 요긴하게 써먹는게 아주 효과적이라는 것이다

먼저 내가 얻으려고 하는 접근법은 이렇다

어떻게 거래해야 가장 이득인가 (전량, 분할, ...)
포트폴리오 구성 방안 (KOSPI, KOSDAQ, NASDAQ, ETF, ...)

간단하게 몇가지만 읽어 봤을 때, 거래 방식에 대해서는 대부분 전량 매매를 선택한 것 같았다

아마 에이전트가 할 수 있는 행동을 단순화 시켜서 학습을 잘 하는 방안에 초점을 맞춘 것 같다 (매수, 매도, 대기)

포트폴리오 구성 방안은 대부분 국내 주식을 기준으로 KOSPI 상위 종목을 선택한 것 같았다

하지만 내가 기준으로 삼은 수익률은 미주이기 때문에 조금 차이가 있을 것 같다

step 2. 사용 알고리즘

강화학습에는 다양한 방법론이 존재한다

가장 크게는 모델 기반이냐 정책 기반이냐로 나뉜다

하지만 대부분 주식시장을 모델링 할 여유는 없으니 정책 기반으로 하지 않았을까 싶다

그렇다면 Policy Gradient냐 Q-learning이냐로 구분될 것 같은데, 사실 둘다 아직 잘 몰라서 왜 이걸 선택했는지는 바로바로 알기는 어려울 것 같다

그러니까 이번 프로젝트를 하면서 이론 공부도 하고, 돈도 벌고

아주 얻어갈 내용이 많을 것 같다

다음 글은 읽은 논문 위주로 정리할 계획이다

제발 좀 쉽게 가르치자 - 강화학습 1편

otch80 — Mon, 9 Oct 2023 19:22:44 +0900

공부하다 너무 화가나서 다시 글을 써본다

대체 왜 강화학습을 쉬운 말로, 수식 없이, 이해되기 쉽게 설명하는 사람이 왜 한명도 없나

(물론 이전 내 설명자료 포함. 그래서 더 화남)

수식으로 설명하면 명확하기 때문에 이 분야를 공부하는 사람들의 스타일이 아닐 수 있는건 이해하는데

취미로 한번 해볼까 하는 사람들이 진입하기에는 너무 숨이 막힌다

나처럼 멍청한 사람을 쉽게 가르치는 사람이 도대체가 왜 한명도 없냐 이말이야

덧셈 뺄셈 하다가 갑자기 미분가르치는데 중간 내용 어디갔냐 하면 수식을 보면 된단다

이게 무슨 소리야 대체

그래서 내가 최대한 추리고 추리면서 내용 다 틀려먹더라도 일단 이해가 되기 쉽게 적고 더 공부하면서 틀린 부분을 수정해가야 겠다

아니 공부도 일단 재미가 있어야 할 거 아니냐

이건 뭐 연구자들만 하는 분야로 두기엔 너무 아깝다

어차피 입문용으로 다룰 내용이라 편하게 음슴체로 쓰겠음

회사 퇴근하고 스터디하고 있는데 그때 쓴 ppt 가져와서 설명하겠음

(내용이 많이 틀릴 수 있음)

ppt 만들때 신인류 채널을 아주 많이 참고했음 (내용이 알차기 때문에 추천)

신인류

우충완과 홍석준의 신경과학과 인공지능의 유별난 만남

www.youtube.com

일단 강화학습에서 쓰는 용어는 일반 (비)지도학습 할때 쓴 용어랑 조금 의미가 다름

뭐가 다른지는 읽다보면 느낌

갑자기 이게 왜 이렇게 되는거? 할때가 많음

지금까지 여러 모델들이 발전하면서 다양한 방법론이 나왔듯이 RL 도 여러개가 나옴

그런데 보면 첫 분기점 용어가 조금 이상함

Model이 없는 RL, Model에 기반한 RL

모델이 없으면 뭘 학습한다는 거지? 싶음

여기서 말하는 Model이란 가상 시뮬레이션으로 이해

이게 무슨소리냐 하면

real world에서 행동하고 보상받고 하는게 Model-Free

가상 시뮬레이션 안에서 행동하고 보상받고 하는게 Model-Based

어떤걸 배우냐의 차이

Model을 배우는 것은 실제와 비슷한 환경을 구축하고, 그 환경에서 어떻게 하는지 배우기 때문에 더 복잡함

그럼 왜 시뮬레이션을 만드냐 궁금할 수 있음

간단함

우리가 실험하고 싶은 환경을 조금씩 바꿔가면서 모델을 다양한 환경에 노출시키고, 많은걸 학습시키기 위함임

자율주행 모델을 만들겠다고 비오는 고속도로에서 200km씩 밟을수는 없음

일단 Model-Based는 어려우니 Model-Free 부터 공부하겠음

그럼 강화학습을 위해서는 뭐가 필요하냐

일단 우리가 학습시킬 (혼자 알아서 행동할) 에이전트가 필요하고

그 에이전트가 동작할 환경이 필요함

우리가 학습시키길 원하는 에이전트가 환경에서 다양한 활동을 하면서 여러 보상을 받고

최고의 성과를 내는 과정을 반복하면서 똑똑해지는 것임

이때 동작하는 것은 에이전트 이지만 나무를 주는것은 환경이 주는 것

이런걸 계속 돌리면 언젠간 엔드드래곤 타임어택도 봇이 세우지 않을까 싶음

그럼 에이전트가 어떻게 공부를 하는 것이냐 하면

일단 하는 거임

하면서 가르쳐주고 배우고 무한반복 (원하는 성능 나올때 까지)

오늘은 여기까지 하고 더 자세한건 천천히 하겠음

파이썬과 케라스로 배우는 강화학습 #2. MDP와 벨만 방정식

otch80 — Sat, 26 Aug 2023 21:11:03 +0900

MDP 구성요소

이전 내용에서 MDP 구성요소로 상태,행동,보상을 설명했다.

조금 더 자세히 설명하자면 상태, 행동, 보상함수, 상태 변환 확률, 감가율 총 5개의 요소로 구성되어 있다.

상태 (State)

상태와 행동은 에이전트가 현재 환경안에서 어떤 상태에 놓여있는지 (위치는 어디인지, 지금 어디로 이동하고 있는지, 주변에 바람은 어떻게 부는지 등) 같은 관찰 가능한 상태의 집합 ($S$) 이다.

책에서 설명하는 예시를 가져왔다

그리드월드에서 상태값은 좌표값이다. (왜 (1,1) 우측이 (1,2) 가 아니라 (2,1) 인지는 모르겠다)

5x5 행렬이 있다고 했을 때, 그리드월드의 상태 집합은 $S = {(1,1),(1,2),(1,3),...,(5,5)}$ 로 표시할 수 있다.

에이전트는 시간에 따라 25개의 상태의 집합 안에 있는 상태를 탐험하게 된다.

시간 $t$ 일때의 상태는 $S_t$ 로 나타낸다. 현재 빨간 사각형의 초기 위치는 $s_0 = (1,1)$ 이다.

행동 (Action)

에이전트가 상태 $S_t$에서 할 수 있는 가능한 핸도으이 집합 $A$

보통 에이전트가 할 수 있는 행동은 모든 상태에서 같다.

위 예시에서 그리디월드 내 에이전트가 수행할 수 있는 행동은 $A = \{up, down, left, right\}$ 인 것이다.

보상 함수 (Reward Function)

환경이 에이전트한테 주는 보상값을 계산하는 함수.

$$R^a_s = E[R_{t+1}|S_t = s, A_t = a]$$

$t$ 시점의 상태 $S_t = s$ 에서 $A_t=a$ 를 수행했을 때

(위 예시로 들면 (1,1) 에서 $right$ 행동을 수행했을 때)

에이전트가 받을 수 있는 보상이 얼마인지에 대한 기대값을 계산해주는 것이 보상함수이다.

위 예시에서는 $S_t$ 에서 $Right$ 이라는 $action$을 했기 때문에 +1 이라는 보상을 얻은 것이고, 만약 $Down$ 이라는 $action$을 했다면 -1의 보상을 얻었을 것이다.

기대값이란 무엇이고, 왜 기대값을 사용하는 걸까?

책의 설명을 빌리자면 기대값이란 일종의 평균이다.

예) 주사위를 굴렸을때의 기대값

$$기대값 = 1 \times \frac{1}{6} + 2 \times \frac{2}{6} + 3 \times \frac{3}{6} + 4 \times \frac{4}{6} + 5 \times \frac{5}{6} + 6 \times \frac{6}{6} = \frac{21}{6}$$

이렇게 해석하는게 맞는지 모르겠지만 주사위를 굴리는 시도는 3.5 의 기대값을 가진다고 보인다.

이처럼 $Agent$ 가 $S_t$ 에 $A_t$ 를 수행했을 때 보상함수는 받을 것이라 예상되는 숫자를 $E (Expectation)$ 를 알려주고, 이를 통해 $Agent$ 가 학습해가는 것이다.

왜 보상함수는 기대값으로 표현할까?

책에서는 '보상을 에이전트에게 주는 것은 환경이고, 환경에 따라서 같은 상태에서 같은 행동을 취하더라도 다른 보상을 줄 수도 있습니다' 라고 설명하고있다.

보상이라는 것은 에이전트가 판단하는 것이 아니라 환경이 알려주는 것이기 때문에 이 행동이 좋다 나쁘다를 알 수 없고,

어느정도 학습한 모델을 가지고 다른 상황에 두게 된다면 또 다른 결과가 나타날 수 있기때문에

이러한 모든것을 고려해서 보상함수를 기대값으로 표현한다고 한다.

나는 '환경에 따라 보상이 다르다' 라는 표현을 어드벤처 게임에서 문을 여는 행동을 스토리 진행을 위함이지만, FPS 에서 문을 여는 것은 총 맞을수도 있는 행동으로 이해했다.

특이한 점은 $R^a_s$ 는 $s$ 상태일때 $a$ 라는 액션을 한다면 얻게되는 $R_{t+1} (reward)$ 의 $E (Expectation)$ 값을 알려주는 것이다.

$t$ 시점이 아닌 $t+1$ 시점이다.

행동을 한 시점과 보상의 시점이 다른 이유는 보상을 에이전트가 알고 있는 것이 아니고 환경이 알려주는 것이기 때문이다.

상태 변환 확률

사실 상태가 변한다는 것은 에이전트가 수행한 행동이 온전히 이루어 졌을때를 가정한다.

하지만 현실처럼 변수가 많은 환경이라면 내가 수행하고자 하는 동작이 100% 생각대로 이뤄지지 않을 수 있다.

이런 부분을 고려하는 것이 상태 변환 확률이다.

예를 들어 기철이는 집에 가야하는데 바람이 너무 강하게 불어 앞으로 가기도 힘든 상황이라면, 우리가 상상했던 집에 도착한 상태가 되기 위해 1초 뒤 앞으로 한걸음 나아간다 라는 행동이 온전히 이뤄지지 않을 수 있다는 것이다.

이를 수식으로 표현했을 때 아래와 같이 나타낼 수 있다

$$P^a_{SS'} = P [S_{t+1} = s' | S_t = s, A_t = a]$$

$t$ 시점인 상태 $s$에서 $a$ 를 수행했을 때, $t+1$ 시점에 $S'$으로 변할 확률을 $P^a_{SS'}$로 나타낸 것이다.

감가율 (Discount Factor)

할인율이라고도 불리는 감가율의 개념은 동일한 의미를 지닌다

돈의 가치는 시간에 따라 다르다.

미래의 가치는 현재의 가치보다 낮을 수 밖에 없다.

그렇기에 가치를 일정부분 충당하기 위해 은행에서는 예금이자라는 방식으로 운용을 하고있다.

보상역시 비슷한 개념으로 작용한다.

내가 너무 배가고파 쓰러질 지경이라면, 당장 라면을 끓이기 위해 냄비 하나만 빠르게 씻는게 모든 설거지를 한번에 다 끝내고 물을 올리는 것 보다 보상이 큰 행동일 것이다.

즉, 같은 보상이라면 시간이 지날수록 가치가 줄어든다는 것이다.

감가율은 $\gamma$ [감마] 로 표현하고, 0 ~ 1 사이의 값을 가진다 (시간이 지날수록 줄어들어야 하니까 1보다 크면 안되고, 0보다 작으면 보상의 크기를 계산하는 문제가 아니게 된다)

$$\gamma \in [0,1]$$

현재 시점 $t$ 로부터 $k$ 가 지난 후의 보상을 $R_{t+k}$ 라고 했을때 감가율을 고려한다면 이렇게 표현할 수 있다

$$\gamma^{k-1} R_{t+k}$$

정책

모든 상태에서 에이전트가 할 행동

벌써부터 머리가 아프다

상태는 $\pi$ 로 나타내고, $Input : s (상태) \rightarrow Output : a (행동)$ 인 일종의 함수다

책에서는 이렇게 설명한다

에이전트가 강화핛브을 통해 학습해야 할 것은 수많은 정책 중에서 최적 정책입니다. 최적 정책은 각 상태에서 단 하나의 행동만을 선택합니다. 하지만 에이전트가 학습을 하고 있을 때는 정책이 하나의 행동많을 선택하기 보다는 확률적으로 여러 개의 행동을 선택할 수 있어야 합니다.

에이전트가 할 수 있는 액션들은 (보편적으로) 이미 정해져있다. 내가 (3,4) 위치에서 위로 가야할지, 아래로 가야할지, 어디로 가야하는지를 이미 계산이 되어 있다는 것이다.

강화학습을 위해선 모든 것이 다 수식으로 정의가 되어야 모델이 학습할 수 있기 때문에 정책 역시 수식으로 표현이 가능하다.

$$ \pi(a|s) = P[A_t = a | S_t =s ] $$

이 수식을 책에서는 이렇게 표현한다

시간 $t$에 $S_t = s$ 에 에이전트가 있을 때 가능한 행동 중에서 $A_t = a$ 를 할 확률을 나타냅니다

그러니까 내가 (3,4)에서 각 행동별로 어떤 행동을 할지 확률을 계산한다는 것이다.

$Up$일 확률 30% $Down$일 확률 15% $Right$일 확률 10% $Left$일 확률 45% 이런식으로

그렇다면 이 확률들은 어떻게 알 수 있었을까

바로 가치함수를 통해 알게되는데, 가치함수는 받을 것이라 예상하는 보상을 알려주는 역할을 한다.

가치함수 (Value Function)

다시 확인해야 할 부분을 짚어보자

보상은 $t$ 시점에 $a$ 액션을 한 이후, 환경이 알려주는 $t+1$ 시점의 정보
즉, 시간 $t$에 대한 보상은 $R_{t+1}$

일련의 보상들을 단순하게 합하면 아래와 같다

$$R_{t+1} + R_{t+2} + R_{t+3} + R_{t+4} + R_{T+5} + \ ...$$

하지만 이전에 설명한 감가율 (Discount Factor) 이 고려되어야 시점에 대한 최선의 행동을 더욱 정확히 판단할 수 있게 된다.

감가율을 적용한 보상들의 합을 표시하면 아래와 같다

$$ R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3} + \gamma^3 R_{t+4} + \gamma^4 R_{t+5} \ ...$$

시점에 해당하는 감가율을 고려하여 합한 보상을 $G_t$ (반환값, Return) 라고 한다

반환값을 수식으로 표현해보면 위 식을 그대로 사용한다

$$ G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3} \ ...$$

반환값 $G$는 에이전트가 실제로 환경을 탐험하며 받은 보상들을 정산한 것이다

예를들어 목표까지 $t=1$ 에서부터 $t=5$ 까지 총 5번의 step을 수행했다면 아래와 같이 표현할 수 있다

$$ G_1 = R_2 + \gamma R_3 + \gamma^2 R_4 + \gamma^3 R_5 + \gamma^4 R_6 $$ $$ G_2 = R_3 + \gamma R_4 + \gamma^2 R_5 + \gamma^3 R_6 $$ $$ G_3 = R_4 + \gamma R_5 + \gamma^2 R_6 $$ $$ G_4 = R_5 + \gamma R_6 $$ $$ G_5 = R_6 $$

$G_1$ 값에 $R_2$ 부터 $R_6$ 까지의 값이 더해지는 이유는

총 5번의 $step$을 수행했기 때문에 나중에 정산하는 시점에서 살펴본 것이기 때문이다

아, 내가 $t=1$ 일때 부터 $t=5$ 일때 까지의 보상들을 더해보니 $G_1$ 이라는 값이 됐구나

(이때 감가율이 고려가 되고, 보상은 $t+1$의 값이니까 $R_6$ 까지 표현)

그리고 $t=2$ 일때 부터 $t=5$ 까지의 보상들을 더해보니 $G_2$가 되었구나

이런식으로 계산을 한 것이다

이렇게 정산을 하는 방법은 step이 다 끝난 이후 (에피소드가 종료된 후) 알 수 있다 (뭔가 기존 ML의 Epoch 같은 느낌이 든다)

하지만 반드시 그럴 필요는 없다

정확한 데이터를 사용하는것은 좋지만, 경험해야 할 단계가 너무 많다면 조금 고민이 될 것이다

상대적으로 정확도가 낮더라도 현재의 정보를 토대로 행동하는 것이 나을 때가 있다

에이전트도 모든 상황을 직접 경험해서 보상을 받지 않더라도, 아 이상황에서는 이렇게 하면 보상을 어느정도로 받겠구나 라는걸 예측할 수 있다

정확히 말하자면 어떤 상태에 있으면 앞으로 얼마의 보상을 받을 것인지에 대한 기댓값을 고려해 볼 수 있습니다. 그것이 바로 가치함수입니다. 간단하게 기댓값은 반환값의 기댓값으로 표현됩니다.

$$ v(s) = E[G_t|S_t=s]$$

$v$가 소문자인 이유는 확률변수가 아니라 특정 양을 나타내는 값이기 때문이다.

또한 가치함수는 에이전트가 가지고 있는 값이다.

그러니까 내가 배가 고픈상태인데, 배가 부르면 기분이 좋겠다 (보상) 라고 한다면 우리는 그 상태가 되기 위해 밥을 먹는 행동을 한다

물론 배가부르기 위해 지금 당장 밥 먹는게 잘못된 선택일 수도 있다.

책에서는 옷 쇼핑하는 예시를 들었다.

옷을 볼때도 괜찮을 것 같아서 샀지만 막상 입어보면 아닌 것 처럼 실패를 할 수 있다

하지만 고민하는 과정을 반복해서 하다보면 결국 기대가 정확해지기 때문에 괜찮다

에이전트 또한 가치함수를 통해 어떤 상태가 좋을지 판단한다

앞으로 받을 보상에 대한 기댓값인 가치함수는 아래 수식으로 표현할 수 있다

$$ v(s) = E[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} \ ... | S_t = s] $$

이 식(가치함수)을 반환값 $G$의 형태로 표현하면

$$ v(s) = E[R_{t+1} + \gamma (R_{t+2} + \gamma R_{t+3} \ ...) | S_t = s] $$

$$ v(s) = E[R_{t+1} + \gamma G_{t+1} | S_t = s] $$

$t$ 시점의 보상은 $R_{t+1}$ 인 것을 기억하자

여기서 한가지 고민해야 할 부분은 $G_{t+1} = R_{t+2} + \gamma R_{t+3} \ ...$ 인 부분인데,

$G$는 실제로 단계를 진행해보고 알게된 보상값들의 정산이라고 했지만 이 식에서는 예상값 (기대값) 이다

그렇기 때문에 앞으로 받을 보상에 대한 기댓값인 가치함수로 표현할 수 있다

$$G_{t+1} \rightarrow v(S_{t+1})$$

$$ v(s) = E[R+{t+1} + \gamma v(S_{t+1}) | S_t = s] $$

현 시점의 가치함수를 다음 시점의 가치함수로 표현하는 것을 보니 무한급수 같은 느낌도 든다

위 수식은 정책을 고려하지 않은 기대값이다

내가 지금 사용하고 있는 정책을 접목했을때의 예상 기대값을 표현하면

$$ v_{\pi}(s) = E_{\pi}[R_{t+1} + \gamma v_{\pi}(S_{t+1} | S_t = s] $$

바로 벨만 기대 방정식 $(Bellman Expectation Equation)$ 이 된다

저자는 이 식을 아래와 같이 표현했다

벨만 기대 방정식은 현재 상태의 가치함수 $(v_\pi (s))$ 와 다음 상태의 가치함수 $(v_\pi (S_{t+1})$ 사이의 관계를 말해주는 방정식입니다. 강화학습은 벨만 방정식을 어떻게 풀어나가느냐의 스토리입니다.

파이썬과 케라스로 배우는 강화학습 #1. 개요

otch80 — Sat, 26 Aug 2023 20:29:14 +0900

참고자료 - https://wikibook.co.kr/reinforcement-learning/

파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 게임 인공지능

“강화학습을 쉽게 이해하고 코드로 구현하기” 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명한다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지

wikibook.co.kr

--> 설명이 친절하게 잘 되어 있다고 느낌

--> 앞으로 이 책을 통해 공부한 내용들을 정리할 예정임

--> 쓰다보니 책의 표현이 너무 찰떡이라 적절한 대체제가 떠오르지 않아 책에 있는 표현과 예시를 그대로 옮기는 경우가 많이 생겼는데 행여나 문제가 된다면 수정할 예정

강화학습?

이전에 배우지 않았지만 직접 시도하면서 행동과 그 결과로 나타나는 좋은 보상 사이의 상관관계를 학습하는 것

쉽게말해, 하나씩 시도해보면서 좋은 보상이 나타나는 방법을 익히는 것

머신러닝과 강화학습

머신러닝

기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습해서 실행할 수 있도록 하는 알고리즘을 개발하는 연구분야, 아서 사무엘 (1959)

주어진 데이터를 기반으로 이것저것 해보면서 얻게되는 보상을 통해 (간접적으로 정답의 역할을 함, 지도/비지도 학습과의 차이) 보상을 얻게 하는 행동을 점점 많이 하도록 학습함

에이전트 (Agent)

강화학습을 통해 스스로 학습하는 대상.
환경 (동작할 공간) 에 대한 사전지식이 없는 상태에서 학습을 함.

강화학습의 기본 메커니즘

강화학습은 사람처럼 환경과 상호작용을 하면서 스스로 학습하는 방식이다.

예) 오후 2시쯤에 A라는 장소까지 가야 함 

이동방법 : [도보, 버스, 지하철, 택시]

월요일 : 걸어간다 -> 지각 (거리가 멀어서 다리도 아프고 땀이 남. 잔소리를 들어서 기분이 안좋아짐)
화요일 : 버스를 탄다 -> 지각 (걷는것보다 시원하고, 편했지만 차가 많이 막혀 늦음. 잔소리 들음)
수요일 : 지하철을 탄다 -> 정각에 도착 (지하철에 사람이 많아서 덥고 힘들었음. 하지만 늦지는 않음)
목요일 : 택시를 탐 -> 일찍 도착 (하지만 이전 방법들에 비해 비용이 많이 발생함. 하지만 편했음)

=> 금요일 : 조금 일찍 출발해서 여유롭게 버스를 탐 (편하고 잔소리도 듣지 않음)

여러 조건이 고정되어 있지 않았기 때문에 좋은 예시로 보기는 어렵지만, 큰 맥락으로 보면 강화학습의 매커니즘과 유사하다.

정답은 없지만 가장 효과적이라 판단되는 방법을 여러 시행착오를 통해 알아낸 것이다.

강화학습 문제

강화학습은 순차적으로 결정을 내려야 하는 문제에 적용된다.

예를 들면 A 장소까지 도보로 이동하면서 마주하는 길목 중, 여기서는 어떤 골목으로 가야 하는지 결정하는 것 처럼.

물론 순차적 행동 결정문제를 강화학습으로만 풀 수 있는 것은 아니고, DP나 진화 알고리즘 등 다양한 방법으로도 해결할 수 있다.
하지만 각기 방법들은 한계를 가지고 있으며 강화학습이 그 한계를 극복할 수 있다.

우리가 풀어내고 싶은 문제를 컴퓨터에 맏기기 위해서는 컴퓨터가 이해할 수 있는 형태로, 코드로 풀어낼 수 있는 형태로 변환해야 한다.
즉, 문제를 수학적으로 표현해야 한다는 것이다. 풀고자 하는 문제를 수학적으로 정의할 때 사용하는 방법이 MDP (Markov Decision Process) 이다.

MDP

사람은 왼쪽 그림만 봤을때 대충 어떤걸 하려는지 한눈에 알 수 있다. 하지만 컴퓨터는 본다라는 과정도 없기 때문에 친절히 세팅을 해줘야 한다.

MDP란 순차적 행동 결정 문제를 수학적으로 정의해서, 에이전트가 문제에 접근할 수 있게 하는 과정이다. 수학적으로 정의된 문제들은 대표적으로 아래 요소들로 구성된다. 다른요소들이 있지만 큰 개념들만 설명한다.

[MDP] 상태 (State)

에이전트의 상태.

에이전트가 어디에 있는지, 어떤 상태에 있는지 같은 정적인 요소 뿐만 아니라,
어디로 움직이고 있는지, 속도는 어떠한지 등 동적인 요소 또한 상태로 표현할 수 있다.

에이전트가 상태를 통해 어떤 상태에 놓여지는 것이 최대의 보상을 얻을 수 있는지 결정 (해당 상태에 놓여지기 위해 행동을 함) 하기 때문에 충분한 정보를 제공하는 것 (상태의 정의) 이 중요하다.

책에서는 탁구를 예시로 들고 있는데, 에이전트가 탁구공 위치만 알고 속도와 가속도를 모른다면 사실상 탁구를 제대로 칠 수가 없다는 것이다.

[MDP] 행동 (Action)

에이전트가 수행할 동작. (예-2D Matrix에서 가능한 행동은 상/하/좌/우 4중 택1)

에이전트가 어떠한 상태에서 취할 수 있는 행동으로, 처음에는 어떤 행동이 좋은건지 정보가 전혀 없다. 그래서 무작위 행동을 수행한다.

행동을 수행하고 상황이 변화면 그에따른 보상을 받으면서 어떤 상황에서 어떤 행동을 하는 것이 좋은 보상을 받는 방법인지를 학습하게 된다.

[MDP] 보상 (Reward)

에이전트가 놓인 상황에 따른 결과값. (예-목적지 도달 : 1, 반대 방향 이동 : -1, 정방향 이동 : 0)

에이전트가 학습할 수 있는 유일한 정보이자 에이전트에 속하지 않는 환경의 일부로, 다른 머신러닝 기법과 다르게 만들어주는 핵심적인 요소.

강화학습의 목표는 시간에 따라 얻는 보상들의 합을 최대로 하는 정책을 찾는것.

정책 (policy)

모든 상태에 대해 에이전트가 수행해야 할 내용을 정해둔 것. MDP 구해야 할 정답

사실 가장 이해가 어려웠던 부분이 정책이다.

일반적인 ML의 경우 input을 개별 weight와 activation function에 따라 연산을 수행하여 결과가 나온다.

하지만 정책이라는 것은 '상태'를 입력으로 받고, 그에따른 Best Case를 선택한다는 내용이

기존 ML의 inference 과정으로 설명하기에 이질감이 들었기 때문이다.

여기서 state는 우리가 일반적으로 주는 feature 라고 이해할 수 있었다.

기온예측이라고 가정하면 강수량, 풍향, 계절, 미세먼지 여부 등

그렇다면 Best Action이라는게 뭘까 싶었다. softmax 같은건가 싶었다.

책을 읽다보니 대략적으로 짐작하게 된 내용을 정리하자면.

에이전트가 할 수 있는 행동은 이미 정해져있다. (일종의 Model의 Output shape/channel)

그러면 기존에 학습했던 내용 (혹은 최초실행으로써 랜덤실행) 을 기반으로 각 행동을 했을때 예상되는 보상을 계산한다.

-> 내가 지금 의자위에 서있는데 (state) 앞으로 다리를 뻗으면 (Action) 아마도 넘어질것 (Reward) 같다.

각 행동별로 계산한 예상 기대값 중, 가장 큰 보상을 받을 수 있는 행동을 Best Action으로 선정하고 실행한다.

-> 의자위에서는 그냥 다시 앉는게 가장 이득인거 같다 (왜냐면 다른게 다 손해라서 상대적 Max 값)

이런 상황들이 순차적으로 이어지면서 (의자에 올라갔다가 앉았다가 돌아다녔다가 밖으로 나갔다가 등등) 각 상황에 어떤 행동을 하는게 이득인지를 결정한 것. (이럴때는 이렇게 하는게 제일 좋더라, (1,1) 에서 (1,2) 로 가는게 제일 좋더라 등)

당연히 train 을 얼마하지 않은 경우엔 각 상황에 따른 best action 이라고 판단한 것이 실제로 Best 가 아닐확률이 높다.

하지만 에이전트가 행동을 통해 상황과 계속 상호작용을 하고 학습을 하면서 (Optimizing, 보상의 합을 최대로 받는 방법을 고민함) 제일 좋은 정책 (Opimal policy, 모든 상황에 대해 최대 보상을 받는 가이드라인) 를 얻어가는 과정을 수행하는 것이다.

[MLFlow] #3. 기본 기능 이해하기

otch80 — Sun, 23 Jul 2023 16:54:40 +0900

내 입맛대로 서비스를 구성하기 참 어렵다

오랜만에 이런 코드를 봐서 인지 막막하고 답답하기만 하다

하지만 어쩌겠어 해야지

Quickstart: Install MLflow, instrument code & view results in minutes — MLflow 2.5.0 documentation

As a data scientist, your explorations involve running your evolving training code many times. MLflow Tracking allows you to record important information your run, review and compare it with other runs, and share results with others. As an ML Engineer or M

mlflow.org

일단 포기하고 싶은 마음을 열심히 참아가면서 MLFLow 공식 홈페이지를 보면서 차근차근 따라해본다

우선 MLFlow는 로거의 역할에 충실한 것 같다. 내가 여러 시도를 하면서 발생한 결과를 트래킹하고, 각 모델별 성능도 비교해주고

아무튼 손이 많이 가는 만큼 직관적으로 사용이 가능할 것으로 기대가 된다

https://mlflow.org/docs/latest/quickstart.html

공홈에 있는 그림인데, 위 그람을 보면 일단 데이터 레이크에서 데이터를 가져와서 전처리하고 모델 학습시키고, 최적의 모델을 선정하는 것 까지 데이터 사이언티스트의 역할이고, 이후 모델 관리나 서빙은 MLOps 엔지니어 영역으로 구분되어 있다.

사실 이렇게 예쁘게 딱 딱 구분되어 있다면 얼마나 좋을까. 현실은 일단 다 할줄 알아야 하기 때문에 (근데 징징대면 또 어떻게든 해결되는 것 같음) 하나씩 하나씩 배워보자

1. Add MLflow tracking to your code

import mlflow

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes
from sklearn.ensemble import RandomForestRegressor

mlflow.autolog()

db = load_diabetes()
X_train, X_test, y_train, y_test = train_test_split(db.data, db.target)

# Create and train models.
rf = RandomForestRegressor(n_estimators=100, max_depth=6, max_features=3)
rf.fit(X_train, y_train)

# Use the model to make predictions on the test dataset.
predictions = rf.predict(X_test)

내 코드를 트래킹 하는 코드를 실습하는데 정확히 트래킹이 어떤 의미로 쓰인건지 모르겠다. 아마 로깅정도의 뜻일 것 같은데...

mlflow.autolog() 라는 부분이 있고, 아래는 일반적인 모델 학습 및 추론 코드이다

아마 logger 처럼 파일에 상태값을 저장하는 역할이 아닐 까 싶다. 아니면 print 된 값도 다 저장을 하거나

For many popular ML libraries, you make a single function call: mlflow.autolog(). If you are using one of the supported libraries, this will automatically log the parameters, metrics, and artifacts of your run (see list at Automatic Logging). For instance, the following autologs a scikit-learn run:

읽어보니 내가 실행한 모델의 파라미터나 모델 성능, 아티팩트 (모델관련 모든 자료) 를 기록해준다고 한다. 이 과정을 sklearn을 통한 실습을 저 코드로 하는거고

우선 임의로 폴더를 만들고 test.py 파일을 만들어 해당 코드를 실행시켜 보았다

(mlflow)  ~/mlflow/ python test.py

2023/07/23 16:40:52 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.
2023/07/23 16:40:52 INFO mlflow.utils.autologging_utils: Created MLflow autologging run with ID '0a0376b4261b4d39b63b764130bedbd1', which will track hyperparameters, performance metrics, model artifacts, and lineage information for the current sklearn workflow
2023/07/23 16:40:55 WARNING mlflow.utils.autologging_utils: MLflow autologging encountered a warning: "/Users/miniforge3/envs/mlflow/lib/python3.11/site-packages/_distutils_hack/__init__.py:33: UserWarning: Setuptools is replacing distutils."

우선 Autologging이 잘 되었다고 한다

그런 다음 0a0376b4261b4d39b63b764130bedbd1 라는 ID로 하이퍼 파라미터, 매트릭, 아티팩트, 관련 정보등을 볼 수 있는걸 만들었다고 한다 (아마 로깅 파일 이름인듯)

그런다음 그냥 warning (안좋은 습관이지만 워닝은 사실 잘 안본다, 코드가 돌다가 멈췄을때만 잠깐 봄)

어쨋든 폴더를 확인해보니 0 (아마도 인덱스인듯) 폴더 아래 아까 설명한 ID에 각종 정보들과, 사용한 데이터셋에 대한 meta 가 들어있다

.trash에는 아무것도 없다

artifact_location: file:~/mlflow/mlruns/0
creation_time: 1690098052157
experiment_id: '0'
last_update_time: 1690098052157
lifecycle_stage: active
name: Default

최상단에 있는 meta.yaml 을 살펴보니 전반적인 내용에 대한 내용이다

생각보다 괜찮다고 느꼇던 부분은 main 코드를 실행했는데 모델 자체도 저장이 된다는 점과, 실행에 필요한 패키지들이 requirements 파일로 저장이 된다는 점이었다. python_env.yaml 파일을 통해 python 자체에 대한 디펜던시까지 함께 관리할 수 있다는 점이다

이런 정보가 있으면 도커를 활용하기 정말 좋다. 파일을 그냥 파싱만 하면 되니까.

이래서 사람들이 mlflow를 좋다고 하는구나 라는걸 바로 알 수 있었다

다만 모델 최초실행 까지의 과정이 수고스러울 것으로 보인다 (너무 당연한 얘기)

그렇게 생각한 이유는 아무래도 test.py 라는 메인 파일을 통해 한번의 실행만 해봤기 때문에 분명 이러한 내용 (디렉터리 구성 가이드) 기본 틀이 있을 것으로 생각이 드는데, 아직까지는 찾지 못했기 때문이다.

경험상 이런 폴더구조로 시작했던 프로젝트들은 하나같이 다 입맛대로 만들고 나니까 사실 그렇게 하는게 아니더라 라는게 너무 많았어서;

랜딩페이지로 가보면 테스트 결과가 저장되어 있다

신기하게 mlruns 로 경로를 옮기지도 않았는데 실행이 된다

그럼 git을 clone 할 필요도 없는거 아닌가?

어쨋든 결과를 확인해보면 yaml 파일과 디렉토리에서 확인할 수 있었던 내용들이 들어있다

Metric도 한눈에 확인할 수 있어서 편리했다

또한 모델을 한번 더 학습시켜 성능을 비교했다

아무튼 대충 mlflow가 어떤건지, 어떤식으로 동작하는지, 어떤 장점이 있는지 맛봤으니 기능을 하나씩 익혀가면서 내가 필요한 내용들로 꾸며나가도록 해야겠다