{
  "creator": [
    "Meier, Nicholas",
    "Sander, Kilian",
    "Schreiber, Anton",
    "Kopiez, Reinhard"
  ],
  "date": [
    "2025-07-16"
  ],
  "description": [
    "Obwohl KI-Systeme in den letzten Jahren erhebliche Fortschritte bei der Erzeugung kultureller Produkte wie Literatur, Poesie oder Musik gemacht haben, bleibt die Frage offen, ob die ästhetische Qualität dieser Produkte mit der zunehmenden allgemeinen Leistungsfähigkeit der large language models (LLMs) ebenfalls angewachsen ist. In einer Replikation der Studie von Schreiber et al. (2024), überprüften wir, ob die kreative Leistungsfähigkeit ausgewählter LLMs auf dem Gebiet der Musik zugenommen hat. In einem Online-Rating-Experiment und unter Verwendung eines Melodiefortsetzungsparadigmas wurden 75 Melodiefortsetzungen der KI-Systeme Qwen 2 (Version 72B Instruct), Llama 3 (Version 70B Instruct) und ChatGPT (Version 4) mit 23 Fortsetzungsvarianten von Musikstudierenden verglichen. Die ästhetische Qualität der Fortsetzungen wurde von N = 54 Hörer*innen (Musikstudierende) mittels vier Items (überzeugend, logisch und sinnvoll, interessant, Gefallen) erfasst. Als erstes Hauptergebnis wurden die menschlichen Lösungen auf allen vier Bewertungsmerkmalen besser beurteilt als die KI-Lösungen (große Effektgröße 1.11 ≤ dz ≤ 2.51), was die Ergebnisse von Schreiber et al. (2024) bestätigt. Das zweite Hauptergebnis zeigte eine mittlere Diskriminationssensitivität für die Identifikation des Ursprungs der Melodiefortsetzungen (d’ = 1.09). Wir schlussfolgern, dass eine bloße Steigerung der Trainingsquantität von KI-Systemen keine Garantie für eine gleichfalls zunehmende ästhetische Qualität des unter kontrollierten Bedingungen erzeugten musikalischen Outputs bedeutet.",
    "Although the last two years have seen AI systems progress significantly when it comes togenerating cultural products like literature, poems, or music, the jury is still out when it comes todetermining whether the aesthetic quality of these products increases in tandem with theperformance enhancements of underlying large language models (LLMs). We replicated the studyby Schreiber et al. (2024) to test whether the creative performance of selected LLMs had improvedover the past two years in the musical domain. In an online rating experiment based on a melodycontinuation paradigm, 75 melodic continuations generated by the AI systems Qwen 2 (Version 72BInstruct), Llama 3 (Version 70B Instruct), and ChatGPT (Version 4) were compared to 23 solutionscomposed by humans. The aesthetic quality of the sound examples was then evaluated by N = 54listeners (music students) using four criteria (convincing, logical and meaningful, interesting, andliking). As the first main finding, human-based creative solutions outperformed all three AIsystems on all four dependent variables (large effect sizes 1.11 ≤ dz ≤ 2.51), thus confirming thefinding by Schreiber et al. (2024). The second main finding revealed a mean (and meaningful)discrimination sensitivity of d’ = 1.09 for AI- and human-based solutions. We conclude that merelyboosting the volume of training of the AI systems does not guarantee correlating improvement inthe creative musical output produced under controlled conditions."
  ],
  "format": [
    "application/pdf",
    "text/html",
    "text/xml"
  ],
  "identifier": [
    "https://jbdgm.psychopen.eu/index.php/JBDGM/article/view/221",
    "10.5964/jbdgm.221"
  ],
  "language": [
    "eng"
  ],
  "publisher": [
    "PsychOpen GOLD / Leibniz Institut for Psychology (ZPID)"
  ],
  "relation": [
    "https://jbdgm.psychopen.eu/index.php/JBDGM/article/view/221/221.pdf",
    "https://jbdgm.psychopen.eu/index.php/JBDGM/article/view/221/221.html",
    "https://jbdgm.psychopen.eu/index.php/JBDGM/article/view/221/221.xml"
  ],
  "rights": [
    "Copyright (c) 2025 Nicholas Meier, Kilian Sander, Anton Schreiber, Reinhard Kopiez",
    "http://creativecommons.org/licenses/by/4.0"
  ],
  "source": [
    "Jahrbuch Musikpsychologie; Band 33 (2025); 1-23",
    "Yearbook of Music Psychology; Volume 33 (2025); 1-23",
    "2569-5665",
    "2511-8277",
    "10.5964/jbdgm.v33"
  ],
  "subject": [
    "Künstliche Intelligenz",
    "KI",
    "generative KI",
    "Komposition",
    "empirische Ästhetik",
    "Melodiebewertung",
    "musikalische Kreativität",
    "Sprachmodelle",
    "Artificial Intelligence",
    "AI",
    "generative AI",
    "composition",
    "empirical aesthetics",
    "melody rating",
    "musical creativity",
    "large language models"
  ],
  "title": [
    "Die kreativen musikalischen Leistungen von KI-Systemen im Vergleich zu Musikstudierenden: Eine Replikation der Studie von Schreiber et al. (2024)",
    "The Creative Musical Achievement of AI Systems Compared to Music Students: A Replication of the Study by Schreiber et al. (2024)"
  ],
  "type": [
    "info:eu-repo/semantics/article",
    "info:eu-repo/semantics/publishedVersion",
    "Begutachteter Artikel",
    "Peer Reviewed Paper"
  ]
}