M 5.3.2 Expertenworkshop 'Topic Modeling', Göttingen, 20.05.16

Ort und Zeit

Medienraum (Raum 1.245) des Seminars für deutsche Philologie
Käte-Hamburger-Weg 3
37073 Göttingen

20.05.16, 10-17h

Teilnehmende

  • Fotis Jannidis (UWÜ)
  • Steffen Pielström (UWÜ)
  • Keli Du (UWÜ)
  • Michael Huber (UWÜ)
  • Christof Schöch (UWÜ)
  • Simone Winko (Uni Göttingen)
  • Gerhard Lauer (Uni Göttingen)
  • Berenike Herrmann (Uni Göttgingen)
  • Peer Trilke (Uni Potsdam)
  • Thomas Weitin (TU Darmstadt)

Agenda

  • Begrüßung und organisatorisches (Jannidis, Pielström)
  • Topic Modeling: Theoretische Einführung (Jannidis)
  • Vorstellung der Use Cases:
  • Emotionen in Lyrik-Anthologien um 1900 (Winko)
  • Korpus der Literarischen Moderne (Lauer, Herrmann)
  • Digitale Netzwerkanalyse dramatischer Texte (Trilke, Göbel, Kampkaspar)
  • Der „Deutsche Novellenschatz“ (Weitin)
  • Geschichte des Deutschsprachigen Romans (Jannidis)
  • Untergattungen des französischen Romans (Schöch)
  • Installation und Test eines Prototypen (Pielström, Huber)
  • Diskussion und Bedarfsanalyse (Jannidis, Pielström)

Protokoll

Protokollführung: Michael Huber

  1. Begrüßung und Organisatorisches (Fotis Janidis)
  2. Topic Modelling - Eine theoretische Einführung (Fotis Janidis)

  3. Semantik ist problematisch für einen Computer abzubilden.

  4. Beispiele
  5. David Blei's Artikel 2011 (https://www.cs.princeton.edu/\~blei/papers/Blei2011.pdf)
  6. Martha Ballard's Tagebuch (http://www.cameronblevins.org/posts/topic-modeling-martha-ballards-diary/)
  7. Micki Kaufman „Quantifying Kissinger“ (http://www.mickikaufman.com/qk/)
  8. Blei/Ng/Jordan 2003 (http://ai.stanford.edu/\~ang/papers/nips01-lda.pdf)
  9. Grafiken zur Erklärung der theoretischen Grundlage zu finden in Blei 2012 (https://www.cs.princeton.edu/\~blei/papers/Blei2012.pdf)
  10. Vorannahmen des LDA-Algorithmus:
  11. Die Reihenfolge der Wörter ist irrelevant
  12. Die Reihenfolge der Dokumente ist irrelevant (oder auch nicht vgl. Verschiebung der Topics auf einer chronologischen Achse)
  13. (nicht vollständig vgl. Vortragsfolien)
  14. Topic modelling generiert nicht ausschließlich Topics, sondern ein Verteilung über Worte (bspw. Werden auch rhetorische Strukturen in Topics zusammengefasst)

  15. Emotionen in Gedichten (Isabel Chlie, Lena Walter, Simone Winko)

  16. Diskrepanz bei zeitgenössischer und aktueller Einordnung was „moderne Lyrik“ ist und wie Emotionen in dieser Literatur dargestellt werden.

  17. Überprüfen der hermeneutischen Ansätze mit Hilfe maschineller Verfahren
  18. Beispiele der hermeneutisch gewonnenen Thesen
  19. Emitionen werden um 1900 sind Mischemotionen (verschiedene basale Emotionen überlagern sich)
  20. es gibt um diese Zeit traditionelle Muster zur Darstellung von Emotionen
  21. Kriterien zur Korpusbildung (nicht vollständig vgl. Vortragsfolien)
  22. erschienen um 1900 (1880-1910)
  23. „Anthologien zeitgenössischer „moderner Gedichte
  24. Auschschluss von Sammlungen mit Rezeptionsrestriktionen
  25. breiter Adressatenkreis
  26. Naturalistische Sammlung „Moderene Dichter-Charaktere“(Wilhelm Arent)
  27. ...
  28. Auszeichnung der OCR gescannten Texte mit TEI-XML
  29. Erste maschinelle Ansätze: Voyant (http://voyant-tools.org/)
  30. Anmerkung von CS: Benutzung von germanet (lexname=feeling) (http://www.sfs.uni-tuebingen.de/GermaNet/)

  31. Korpus der Literarischen Moderne – KOLIMO/Q-LIMO (Gerhard Lauer)

  32. psychologische/autorenorientierte Ausrichtung

  33. Erstellung eines literarischen Korpus der Moderne (1880-1930)
  34. Kombination quantitative und qualitative Analyse
  35. ganz wichtig: Kafka-Airport (https://www.youtube.com/watch?v=gEyFH-a-XoQ)
  36. Aufbau eines Kafka- und eines Referenzkorpus (literarische und nichtliterarische Schriften)

  37. (Kurze) Vorstellung des DkProWrappers

  38. https://github.com/DARIAH-DE/DARIAH-DKPro-Wrapper

  39. best tutorial ever: https://github.com/DARIAH-DE/DARIAH-DKPro-Wrapper/blob/master/doc/tutorial.adoc

  40. Vorstellung eines Topic Modelling-prozesses mit Hilfe eines ipython notebooks

  41. Diskussion, ob eine GUI gebraucht wird oder nicht:

    SP: anstatt einer GUI lieber ca. 5 gute dokumentierte Funktionen / bash-Befehle

    PT: funktioniert gut, wenn gut dokumentiert. GUI aber für didaktische Sachen auch ausserhalb der DH gut.

    GL: fehlende GUI hilft sich weiter in die Materie einzuarbeiten

    FJ: BA studenten wenig belastbar.

    CS: Kommandozeile schien auf einer Konferenz weniger das Problem

    SW: Warum nicht zweigleisig fahren?

    „Die Germanisten“: Die Benutzung der Kommandozeile ist durchaus erlernbar, aber nicht jeder möchte sich so stark hereinarbeiten müssen

    GL: Die Datenstruktur muss bei einer Demonstration sehr gut beschrieben werden.

  42. → leichtgewichtige GUI, Weiterentwicklung an der GUI-losen Version

  43. Peer Trilcke - Universität Potsdam

  44. Dramenkorpus (Textgriddaten) 1730 -1930

  45. manuelle Aufbereitung

  46. daraus wurden Strukturdaten extrahiert und in ein Korpus umgewandelt

  47. automatisierte Extraktion philologisch relevanter Daten und Visualisierung in Netzwerken

  48. Wie kann man TM darauf anwenden? Was macht TM mit dem Text?

  49. Exkurs: FJ Metadaten zur Segmentierung

    PT: Frage nach einem einheitlichen Austauschformat

    FJ: 1-2 Treffen im Jahr notwendig um Teilprobleme zu identifizieren

    Generell: Es soll ein Emailverteiler eingerichtet werden Schlagwort „Dariah-Topics“. Google-Mailingliste einrichten um ein Archiv mitgeliefert werden.

  50. Thomas Weitin(TU Darmstadt): DARIAH Topic Modeling Auftakt

    1. Korpus
  51. Heyse, Kurz: Deutscher Novellenschatz

  52. 86 Novellen, 82 Autoren
  53. 1840: 14 Novellen, 1850: 22, 1860:18
  54. Cluster, ConsensusTree, Netzwerkanalyse (Basierend auf Delta, Vorgehen nach Eder) Dabei verwendet: Visone (https://visone.info/)

  55. Fragen und Analysen

  56. Typologie von Durschnittlichkeit: lokal/global

  57. Novellenschatz als Data Frame
  58. (nicht vollständig vgl. Vortragsfolien)

  59. Exkurs: FJ wie kann man Ergebnisse von TM auf segmentierte Dokumente wieder zusammenführen. Unterschiedliches Vorgehen von CS und FJ.

    Ausserdem: literarische Texte nehmen einen besonders besonderen Stellenwert ein, weshalb unsere Gruppe so wichtig ist :)

  60. Vortrag von Christof Schöch + dazugehörige Funktion:

    Folgendes Vorgehen:

  61. Mastermatrix auch für den Gensimoutput

  62. Bündelung aller Visualisierungen in ein Visualisierungspaket (CS Vorschlag: pygal)
  63. preprozessieren → Entscheidung TMW oder Mallet für TM → Visualiserungspaket nutzen