Bericht MLUGS Treffen im Februar 2018

20. February 2018

Protokoll

Vorstellungsrunde

+2 Nachzügler

Uwe Sterr - Einführung ins reinforced learning anhand einer Verkehrssimulation und eines Beispiels aus der openai gym

Behandelte Themen: Markov Decision Process, Value Function, Q-Learning, Deep Q-Learning

Unter https://github.com/uwesterr/Connected-Autonomous-Driving findet ihr die Mindmap zum Vortrag.

Ziel: Was kann man mit RL lösen? Welche Probleme passen auf RL?

Beispiel: Autosimlulation vom MIT

Wir suchen für die Eingabe die passende Aktion, um das Ziel zu erreichen. Eine nichts-Aktion ist auch eine Aktion. Wenn die Aktion gut war, dann bekomme ich eine Belohnung. Ziel ist es die Belohnung zu maximieren.

dabei muss auch gelernt werden, welche aktionen sehr schlecht sind. die gewichte der aktionsübergänge können dabei auch gelernt werden. RL zu trainieren dauert unter Umständen sehr lange.

Q-Values am Beispiel von Gridworlds

pacman spielt man indem man ein CNN vorschaltet und dessen features nimmt man. die reward-function ist teil der loss-function

um alles zu sehen und nicht in einem lokalen minimun festzustecken, muss man hin und wieder exploration machen (irgendwas anderes machen)

da es so lange dauert, braucht man meistens einen simulator.

selber rumspielen mit openai: https://github.com/openai/gym

Ziel: Was kann man mit RL lösen? Welche Probleme passen auf RL?

https://www.alexirpan.com/2018/02/14/rl-hard.html

AlphaGo-Film: https://www.netflix.com/title/80190844

in gaming: - https://arxiv.org/pdf/1609.05521.pdf - https://arxiv.org/pdf/1708.04782.pdf

News

Conferences

Vergangene:

Zukunft: Liste mit Konferenzen in Europa

Kurse/Lernmaterial

ML/AI in der Presse

KW 03

KW 04

KW 05

KW 06

KW 07

KW 08

next

Thema: Einführung in Sequence-Models (Andreas Madsack)

mit praktischen Beispielen und Teaser auf Verwendung in der NLG

Date: 2018-03-20