Das Projekt Occiglot hat das Ziel, große Sprachmodelle (LLMs) für die 24 offiziellen Sprachen der Europäischen Union sowie mehrere weitere inoffizielle und regionale Sprachen zu entwickeln. Diese Modelle sollen frei zugänglich und quelloffen sein, um die digitale Souveränität Europas zu stärken und die sprachliche Vielfalt des Kontinents zu fördern.
Herausforderungen aktueller Sprachmodelle
Derzeit dominieren LLM von großen Technologieunternehmen und Deep-Tech-Startups den Markt. Diese Modelle sind jedoch stark auf die englische Sprache fokussiert und berücksichtigen die sprachliche Vielfalt Europas nicht ausreichend. Dies kann zu einer digitalen Ungleichheit führen, da Menschen, die nicht Englisch sprechen, benachteiligt werden.
Ziele von Occiglot
Occiglot will diese Herausforderungen durch die Entwicklung von LLMs adressieren, die:
- Mehrsprachig: Die Modelle sollen alle 24 offiziellen Sprachen der EU sowie weitere inoffizielle und regionale Sprachen unterstützen.
- Open-Source: Der Quellcode der Modelle soll frei zugänglich sein, damit sie von Forschern und Entwicklern in ganz Europa weiterentwickelt und angepasst werden können.
- Basierend auf europäischen Werten: Die Modelle sollen die sprachliche Vielfalt und den kulturellen Reichtum Europas berücksichtigen.
Nutzen von Occiglot
Die Occiglot-LLMs können für eine Vielzahl von Anwendungen eingesetzt werden, z. B.:
- Maschinelle Übersetzung: Die Modelle können dazu verwendet werden, Texte von einer Sprache in eine andere zu übersetzen.
- Textgenerierung: Die Modelle können verwendet werden, um Texte in verschiedenen Formaten zu generieren, z. B. Artikel, Blog-Beiträge oder Social-Media-Posts.
- Spracherkennung: Die Modelle können verwendet werden, um Sprache zu erkennen und zu verstehen.
Erste Schritte
In den vergangenen Monaten hat die Occiglot-Initiative bereits etwa 1 Billion Token an Trainingsdaten in nicht-englischer Sprache gesammelt. Dieser Datensatz wird kontinuierlich erweitert, um die Qualität der Modelle zu verbessern.
Zukunft von Occiglot
Langfristig soll Occiglot zu einer führenden Plattform für die Entwicklung und Nutzung von mehrsprachigen LLMs in Europa werden. Die Initiative kann dazu beitragen, die digitale Souveränität Europas zu stärken und die sprachliche Vielfalt des Kontinents zu fördern.
Relevanz für Brandenburg
Brandenburg ist ein Land mit großer sprachlicher Vielfalt. Neben Deutsch werden in Brandenburg auch Sorbisch und Polnisch gesprochen. Occiglot kann dazu beitragen, die sprachliche Vielfalt Brandenburgs zu erhalten und zu fördern.
Weitere Informationen