메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술대회자료
저자정보
김윤서 (경기대학교) 조수희 (경기대학교) 권령구 (경기대학교) 권기현 (경기대학교)
저널정보
한국정보기술학회 Proceedings of KIIT Conference 한국정보기술학회 2023년도 하계종합학술대회 및 대학생논문경진대회
발행연도
2023.6
수록면
878 - 882 (5page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
테트리스의 환경은 행동을 하는 즉시 보상을 획득할 수 있는 것이 아닌, 한 행에 블록을 모두 채운 후 해당 줄을 지워야 보상을 받는 특이한 보상 구조를 가지고 있다. 인공지능 분야에서 활용되는 강화 학습 알고리즘인 A2C(Advantage Actor-Critic)와 DQN(Deep Q-Network) 두 알고리즘의 구성 요소와 작동 원리에 대해 분석하고 각 알고리즘의 장단점을 알아본다. 이후 알고리즘의 구조적인 차이를 획득하는 보상을 분석하여 두 알고리즘의 성능을 비교한다. 이 실험을 통해 이산적이고 임의적인 환경에서 A2C 알고리즘과 DQN 알고리즘 중 어떤 알고리즘이 더 우수한 성능을 보이는지 분석을 수행했다. 실험 결과 시간적인 측면에서 DQN 알고리즘이 더 강점을 보였지만, 획득한 보상을 분석해보았을 때 A2C 알고리즘이 더 높은 보상 값을 보여주었다.

목차

요약
Abstract
Ⅰ. 서론
Ⅱ. 배경지식
Ⅲ. 실험 환경 구성 및 연구 방법
Ⅳ. 결과 및 분석
Ⅴ. 결론
참고문헌

참고문헌 (0)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0