1. Bericht MLUGS Treffen im Juli 2016

    Protokoll

    Vorstellungsrunde

    • Andreas;ax-semantics;Python-Entwickler
    • Frank;eigene Firma
    • Götz;Machinenbauer;macht predictive Maintenance;hält nachher Vortrag dazu
    • Alex;Systemigenieur;noch nichts mit ML gemacht;eingelesen und interessiert
    • Frank;ax-semantics;CVO - interessiert an business cases
    • Andreas;Milchanalyse und -auswertung;in R
    • Uwe;Raumfahrt;Simulationstechnik, sucht business cases für Raumfahrt
    • Armin;Kaufland IT;BI
    • Johannes;Kaufland IT;BWLer, hält Vortrag nachher;will Prozesse mit ML beeinflussen
    • Stefan;hat Firma;interessiert an ML
    • Christian;Daimler

    +1 Nachzügler

    Johannes Heischmann - Diskussion zu Business-Cases für Machine-Learning

    Folien: https://github.com/mlugs/jupyter/blob/master/slides/Use_Cases_MLUGS_final.pdf

    Artikel in der Harvard Review: https://hbr.org/2016/02/companies-are-reimagining-business-processes-with-algorithms

    Weg von Prozessen hin zu regelgetriebenen Aktivitäten

    Regeln wurden aus einem All-in-one-System rausgebaut. Software-Oriented-Architecture

    Wissen -> Lernen -> Regeln -> Methoden -> Prozess

    Prozesse sind effizient; aber eben starr

    die Verbesserung ist, dabei die Regeln zum steuern zu verwenden, und keine Methoden/Prozesse daraus zu machen

    Beispiel: wo kommt ein Artikel ins Regal? Diese Regeln immer wieder nachvalidieren.

    Viele der Regeln bei Kaufland werden aktuell von Menschen entschieden (ca. 30 Personen).

    Diskussion: Preisänderung innerhalb eines Tages. vielleicht sogar stündlich.

    SAP F&R für Planung aktuell. und Blue Yonder für Fleisch. Ziel möglichst wenig wegwerfen.

    Menschliche Disponenten machen manchmal Fehler. Maschinen dürfen weniger Fehler machen, weil man das von ihnen erwartet.

    Blackbox Machine-Learning hat ein ggü Menschen Argumentationsproblem.

    A/B-Test zwischen neuronalem Netz und menschlichen Disponenten

    Wenn am Sonntag viel nach Eis gegooglet wird, dann wird am Montag mehr Eis verkauft.

    Will man die Disponenten wirklich komplett ersetzen? Sicher erstmal nicht.

    Diskussion: Ethik von ML. Der Algorithmus performt besser, wenn die kranke Kuh früher geschlachtet wird.

    Du musst ggü. dem Betriebsrat beweisen, dass damit keine Mitarbeiter überwacht/gemessen werden.

    Es wird um mögliche Betriebsratsprobleme herumimplementiert.

    Götz Bräuer - Business Case in der Zeitungsproduktion bei Freiburger Druck. Aus der Sicht des Qualitätsmanagemts berichten wir über Condition Monitoring bei Druckmaschinen mit dem Ziel Predictive Maintenance.

    seine Firma ist bringQ - Qualitätsmanagement

    wasserloses Druckverfahren bei Freiburger Druck

    heute ist QM wichtig, weil man keine Ausfälle möchte

    Ziel dabei auch mehr die Fehler monitoren und protokollieren.

    Ziel: lernende Mitarbeiter; lernende Maschinen; lernende Produktion; lernende Organisation

    Erfassen der Fehler mit 8D-Report: W-Fragen, ...

    Ableitung der Fehlerbäume

    Auswertung mit Qlik Sense (kostenfrei bis zu 5 User)

    Ausblick: Audioaufnahmen, ob die Druckmaschine richtig arbeitet.

    Messen vs. einfach ausbauen nach X Durchläufen.

    Resultat inzw. 99.991% Zuverlässigkeit ... dadurch weniger leute im Support; vor allem nachts. Mitarbeiter jetzt anders eingesetzt.

    Möglicher (anderer) Businesscase: Rechner mitverkaufen, um die Anlage zu überwachen und besser festzustellen ob noch alles ok ist.

    Gerold Hafner - Lebensmittel retten!

    ISWA, Uni Stuttgart

    Thema: (kein) Müll - Lebensmittelverschwendung

    http://www.green-cook.org / http://refowas.de

    Ziel: Prognose der Nachfrage in Supermärkten und in Großküchen / Monitoring Lebensmittelverlust in Bayern

    Größtes Potential sind vermeidbare Lebensmittelabfälle schon beim Kunden. Viel mehr Abfälle als im Handel.

    Bayern möchte eine App für Großküchen, Gastronomie, Bäckereien, Online-App; Zentrale Datenbank für Monitoring Bayern

    Hinterlegung von Benchmarks / Referenzwerten

    aktuell: Windowssoftware mit Waage in der Küche

    mögliche Lösung: Bildverarbeitung / Videoverarbeitung

    sucht Enwickler für neue verbesserte Lösung

  2. MLUGS Treffen im Juli 2016

    Unser drittes Treffen ist am Dienstag, den 19.7. in der Marienstrasse 23 bei aexea.

    Themen:

    • Wolfgang Kraus / Johannes Heischmann - Diskussion zu Business-Cases für Machine-Learning
    • Götz Bräuer - Business Case in der Zeitungsproduktion bei Freiburger Druck. Aus der Sicht des Qualitätsmanagemts berichten wir über Condition Monitoring bei Druckmaschinen mit dem Ziel Predictive Maintenance.
    • Gerold Hafner - Lebensmittel retten! ISWA, Uni Stuttgart
    • (weitere Vorschläge sind willkommen)
    • Lightningtalks:

      • (auch hier könnt ihr gerne Vorschläge machen)

    Wann:

    19. Juli 2016 um 18:30

    Wo:

    Marienstrasse 23, Stuttgart-West, aexea (1. OG)

    Bitte meldet euch an unter:

    https://www.letsmeet.click/c/machine-learning-user-group-stuttgart

  3. Bericht MLUGS Treffen im Juni 2016

    Protokoll

    Vorstellungsrunde

    • Andreas; ax-semantics; Software-Entwickler
    • Frank; IoT/Maschinenbau-Software-Entwicklung
    • David; arbeitet sich in ML rein; arbeitet Bücher durch
    • Viktor; Software-Architekt bei softwareinmotion; embedded/web. inzw. ML; verwendet F#
    • Michael; Kaufland; Datamining
    • Armin; Kaufland; Data-Warehousing
    • Wolfgang; Kaufland; Innovation-Management, auch Kaufland-IT macht cooles Zeug
    • Robin; Technische Biologie-Student; shack
    • Stefan; hat eine Firma; Java/ERP

    +1 Nachzügler

    Dr. Frank Gerhardt - Machine Learning with PySpark

    wurde schon als Workshop auf der PyData in Berlin gehalten.

    https://hub.docker.com/r/gerhardt/pyspark-workshop/

    Die Idee hinter PySpark: Apache Spark ist ein Framework um Kollektions beliebiger Größe verarbeiten zu können. Massiv parallel.

    Macht quasi map/reduce.

    Frank würde eher Cassandra verwenden. Und nicht Hadoop.

    Spark arbeitet komplett im RAM. Und verwendet eine Datenbank/Festplatte.

    Hat sehr viele ML-Funktionen fertig implementiert dabei.

    Idee: mit spark macht man aus vielen servern nach aussen hin einen Server.

    Integrierte Fehlertoleranz. Wenn ein Knoten ausfällt, werden die Jobs neu verteilt.

    PySpark redet über socket/pipes mit Spark/JVM.

    DataFrame als basis der Daten hat ein Schema. Das Schema wird abgeleitet aus den Daten. Das Schema sollte sich dann nicht mehr ändern.

    PySpark hängt immer etwas hinterher in der Entwicklung, weil eben erst Java und Scala entwickelt werden.

    DataFrame ist in Scala, Python, R und SQL gleich schnell.

    Zusammenfassung: Spark kann Collections berechnen und ist dabei nicht durch den RAM beschränkt.

    Todo jetzt: Datensammeln!! Später kann man dann modelle darauf rechnen. Wenn man keine Daten hat, dann kann man kein ML machen!

    Diskussion

    Wie beeinflusst ML Nutzer und wie verändern Nutzer ihr Verhalten, um den richtigen Effekt zu bekommen (und "tricksen" damit den Algorithmus aus).

    Privacydiskussion. Wenn der Laden den Nutzer auf Basis der Mac-Adresse im Wifi trackt.

    alternativer Mitschrieb zum Vortrag

    Spark

    • große Datenmengen, die nicht nach oben begrenzt sind (nur Plattenplatz/memory ist limitierend)
    • Streamverarbeitung:

    findspark # Hilft beim auffinden

    sc=pysparc.SparkContext()
    sc.parallelize(range(1,1000),4).map(lambda x: 1/x)
    

    Cluster aus NUCs, gemeinsame Nutzung von Hauptspeicher, HD etc.

    What is spark
    • implementiert in Java/
    Spark SQL Sparc streaming real-time MLlib machine learning GraphX graph processing
    sparc
    Scheduler YARN Mesos

    MLlib: machine learning lib pyspark.ml

    Spark driver
        -> 
        Cluster master
            -> Cluster worker
    
    main concept: RDD
    • RDD: resilient distributed dataset
    • resilient: recover from failures
    • distributed
    • dataset: can be large (much larger than RAM)

    RDD metadata

    • partitions (eher viele, 10000)
    • dependencies
    • compute function
    • preferred locations
    • partitioner

    RDD creation from persistent storage: files, HDFS, Cassandra, HBAse python collection * ...

    RDD caching

    • memory
    • mem+disk
    • disk (seldom used)
    rdd1=sc.range(1,12345)
    rdd2=rdd1.map(lambda x: x+1)
    rdd2.collect()
    # rdd2.cache() # otherwise result needs to be recomputed if needed later
    

    transformations and actions

    • Aufbau eines Execute-Graphen

    Demo word-count im jupyter notebook

    pysparc

    Cluster

    • Spark Worker on JVM
      • <- Pipe -> Python
    • Spark Worker on JVM
      • <- Pipe -> Python

    Local

    • Py4J
      • Spark Context -> Local file system -> ...

    Data frame

    • DF has schema
    • not as lazy as RDDs are

    Data Sets

    • wegen fehlender Typisierung: not available yet
    Pointer
    • Advanced Analytics with Spark: Patterns for Learning from Data at Scale http://shop.oreilly.com/product/0636920035091.do
    • https://github.com/gerhardt-io

    Lightningtalks

    Andreas Madsack - TensorFlow auf dem Raspberry PI 3

    https://github.com/mlugs/jupyter/blob/master/notebook/Lightning%20Talk%20-%20Tensorflow%20on%20RaspberryPi%203.ipynb

    Ähnlich sinnvolle Anwendung von ML: http://joelgrus.com/2016/05/23/fizz-buzz-in-tensorflow/

    Andreas Madsack - Parsey McParseface and SyntaxNet

    https://github.com/mlugs/jupyter/blob/master/notebook/Lightning%20Talk%20-%20Parsey%20McParseface%20and%20SyntaxNet.ipynb

    Martin Weis - Data Mining

    Herbologie an der Uni-Hohenheim.

    Schnelldurchlauf über Data-Mining.

    hilfreich: deviation plot (mittelwert/std-abweichung)

    alternative software: http://community.pentaho.com/

    next

    wir wollen business-usecases zusammentragen und diskutieren.

    nächster Termin ist Dienstag, der 19. Juli 2016!

  4. MLUGS Treffen im Juni 2016

    Unser zweites Treffen ist am Dienstag, den 21.6. in der Marienstrasse 23 bei aexea.

    Themen:

    • Dr. Frank Gerhardt - Machine Learning with PySpark. Kurzfassung des Workshops von der PyData Berlin 2016. Wer live hands-on mitmachen will, kann sich das Docker Image holen.
    • (weitere Vorschläge sind willkommen)
    • Lightningtalks:

      • Andreas Madsack - Tensorflow auf dem Raspberry PI
      • (auch hier könnt ihr gerne Vorschläge machen)

    Wann:

    21. Juni 2016 um 18:30

    Wo:

    Marienstrasse 23, Stuttgart-West, aexea (1. OG)

    Bitte meldet euch an unter:

    https://www.letsmeet.click/c/machine-learning-user-group-stuttgart

  5. Bericht MLUGS Treffen im April 2016

    Protokoll

    Vorstellungsrunde

    18 Leute erzählen wie sie heissen, wo sie arbeiten und wieviel Ahnung sie von ML haben.
    +2 Nachzügler.

    Das hier lohnt sich: https://www.coursera.org/learn/machine-learning/

    Vortrag: David Lackovic - Einführung in Machine Learning mit Scikit-Learn

    scikit-learn ist die ML-Bibliothek für Python (verwendet NumPy und SciPy)

    Fragen:

    Buchvorstellung: Andreas Madsack - Python Machine Learning

    http://shop.oreilly.com/product/9781783555130.do
    Discount Code: WCYAZ (40% gedruckt, 50% digital)

    Lightning Talks

    Diskussion

    • Wann soll das nächste Treffen stattfinden? 21.6.2016
    • Autonomes Fahren und ML
    • Wer verwendet ML in der Wirtschaft?
      • Bauern optimieren. z.b. humpelt die Kuh, ist was auf dem Acker problematisch, ist die Milch in Ordnung …
      • Frauddetection bei Kreditkarten
      • Intrusiondetection bei Netzwerken
      • noch nicht die Raumfahrt :)
    • Overfitting
      • einfacheres Model finden (aber nicht zu einfach)
      • mehr Trainingsdaten

    image 1 image 2

  6. Erstes Treffen April 2016

    Unser erstes Treffen ist am Donnerstag, den 21.4. in der Marienstrasse 23 bei aexea.

    Themen:

    1. "sklearn (Python Machine Learning Framework) Einführung" von David Lackovic
    2. eine Buchvorstellung (Machine Learning mit Python)
    3. 2-3 Lightningtalks

    Wann:

    21. April 2016 um 18:30

    Wo:

    Marienstrasse 23, Stuttgart-West, aexea (1. OG)

    Bitte meldet euch an unter:

    https://www.letsmeet.click/c/machine-learning-user-group-stuttgart