Foundation Models

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Foundation Models (deutsch: Grundmodelle oder Basismodelle) sind Computermodelle auf dem Gebiet der künstlichen Intelligenz (KI). Ein Modell ist ein durch Maschinelles Lernen für eine bestimmte Anwendung trainiertes Computermodell. Oft handelt es sich dabei um ein Künstliches neuronales Netz. Ein Grundmodell ist ein maschinelles Lernmodell, das auf einer großen Menge von Daten derart trainiert wird (oft durch Selbstüberwachtes Lernen oder halbüberwachtes Lernen), dass es auf eine Vielzahl von nachgelagerten Aufgaben angepasst werden kann. Grundmodelle haben dazu beigetragen, KI-Systeme neuartig zu konzipieren, wie z. B. durch die Bereitstellung von Chatbots und anderen nutzerorientierten KI-Anwendungen. Das Center for Research on Foundation Models (CRFM) des Stanford Institute for Human-Centered Artificial Intelligence’s (HAI) hat diesen Begriff populär gemacht. Im August 2021 definierte das CRFM den Begriff Grundmodell als Modell, das auf breiten Daten trainiert wird (in der Regel mit Selbstüberwachung im großen Maßstab) und das an eine Vielzahl von nachgelagerten Aufgaben angepasst werden kann.[1][2]

Grundmodelle sind so konzipiert, dass sie an verschiedene nachgelagerte kognitive Anwendungen angepasst werden können (z. B. durch Feinabstimmung). Zu den wesentlichen Merkmalen von Grundmodellen gehören Emergenz und Homogenisierung.[3]

Wahl des Begriffs

[Bearbeiten | Quelltext bearbeiten]

Den neuen Begriff Foundation Models führte das CRFM ein, weil bestehende überlappende Begriffe nicht ausreichend waren. Es argumentiert, dass das Large Language Model (LLM) zu eng war, da der Fokus nicht nur auf Sprache liegt, selbstüberwachtes Modell zu spezifisch für das Trainingsziel ist und vortrainiertes Modell suggerierte, dass die Aktion erst nach dem Vortraining stattfindet. Da der Umfang, in dem sich das Gebiet in den letzten Jahren entwickelt habe und das zunehmende Potenzial für jedes gegebene Modell für verschiedene Zwecke verwendet zu werden, groß sei, sei ein neuer Begriff gerechtfertigt.[4][5]

Frühe Beispiele für Grundmodelle waren vortrainierte Sprachmodelle, wie z. B. Googles BERT[6] und verschiedene frühe GPT (Generative Pretrained Transformer)-Grundmodelle, zu denen auch OpenAIs GPT-n-Serie gehört. Diese Art von Grundmodellen ist bekannt als LLM. Solche breiten Modelle können wiederum für aufgaben- und/oder domänenspezifische Modelle verwendet werden, die auf gezielten Datensätzen verschiedener Art basieren, wie z. B. medizinischen Codes.[7] Neben Text wurden auch mehrere visuelle und multimodale Grundmodelle geschaffen wie DALL-E, Flamingo[8], Florence[9] und NOOR[10] Visuelle Grundmodelle wurden mit textbasierten LLMs kombiniert, um anspruchsvolle aufgabenspezifische Modelle zu entwickeln.[11] Es gibt auch Segment Anything von Meta AI für die allgemeine Bildsegmentierung.[12] Diffusion Models unterscheiden sich bezüglich Struktur und verwendeter Algorithmen von LLMs. Ihr Einsatz wurde z. B. für die Robotik vorgeschlagen.[13] Für Bestärkungslernagenten gibt es Gato von Google DeepMind.[14]

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Developing and understanding responsible foundation models. Center for Research on Foundation Models, Stanford University, 2021. Abgerufen am 2023-11-02
  2. Rishi Bommasani et al.: On the Opportunities and Risks of Foundation Models. Center for Research on Foundation Models, Stanford University, v3, 12. Juli 2022 (englisch). Abgerufen am 2024-07-17
  3. Johannes Schneider: Foundation models in brief: A historical, socio-technical focus. Universität Liechtenstein, 2022-12-17 (engl.). Abgerufen am 2023-11-02
  4. Percy Liang et al.:Foundation Models FAQ hai.stanford.edu, 2021. Abgerufen am 2. November 2023
  5. Percy Liang et al.: Foundation Models: Challenges and Opportunities. arxiv.org 2021. Abgerufen am 2023-11-02
  6. Rainald Menge-Sonnentag: Wer, wie, was: Textanalyse über Natural Language Processing mit BERT. In: Heise Online. 12. August 2019, abgerufen am 3. November 2023.
  7. A. Wangperawong et al.: A Large-Scale Medical Code Foundation Model for Improved Generalization and Adaptation to Downstream Tasks. arxiv.org, 2021. Abgerufen am 2023-11-02
  8. Flamingo: A Visual Foundation Model for the Web. flamingo.ai. Abgerufen am 2023-11-02
  9. Florence: A Multimodal Foundation Model for Medical Imaging and Natural Language. florence.ai. Abgerufen am 2023-11-02
  10. NOOR: A Visual Foundation Model for Arabic Text and Image Generation. noor.ai. Abgerufen am 2023-11-02
  11. J. Lu et al. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. arXiv.org, 2019. Abgerufen am 2023-11-02
  12. Segment Anything: A Visual Foundation Model for Image Segmentation. segmentanything.com. Abgerufen am 2023-11-02
  13. Cheng Chi et al.: Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. arXiv.org, 7. März 2023. Abgerufen am 2024-07-17 (englisch)
  14. Gato: A Reinforcement Learning Foundation Model for Atari Games. deepmind.com. Abgerufen am 2023-11-02