KI Forschungsprojekt OpenGPT-X: Teuken-7B ist Multilingual und Open Source
• 26.11.24 Das Forschungsprojekt OpenGPT-X hat das große KI-Sprachmodell Teuken-7B veröffentlicht, das ab sofort auf Hugging Face zum Download bereitsteht. Dieses Modell wurde von Grund auf mit den 24 Amtssprachen der EU trainiert und umfasst sieben Milliarden Parameter. Akteure aus Forschung und Wirtschaft können das
|
KI Forschungsprojekt OpenGPT-X: Teuken-7B ist Multilingual und Open Source
KI Forschungsprojekt OpenGPT-X: Teuken-7B ist Multilingual und Open Source -Bild: © tarifrechner.de |
Entwicklung und Training des Modells
Multilinguales Training
Das Teuken-7B Modell wurde mit den 24 Amtssprachen der EU trainiert, was es zu einem der wenigen KI-Sprachmodelle macht, die von Grund auf multilingual entwickelt wurden. Das Modell enthält ca. 50 Prozent nicht-englische Pretraining-Daten und wurde in allen europäischen Amtssprachen trainiert. Dies unterscheidet Teuken-7B von anderen mehrsprachigen Modellen, die erst im Zuge eines fortgeführten Pretrainings oder Finetunings um mehrsprachige Daten erweitert wurden.
Leistung und Benchmarks
In den multilingualen Benchmarks ARC, HellaSwag und TruthfulQA erzielte Teuken-7B im Durchschnitt die besten Ergebnisse. Bei den einzelnen Benchmarks lag es im Vergleich zu anderen Open-Source-Modellen ähnlicher Größe an zweiter Stelle. Diese hohe Leistung macht das Modell besonders attraktiv für internationale Unternehmen mit mehrsprachigen Kommunikationsbedarfen sowie Produkt- und Serviceangeboten.
Vorteile und Nutzung des Modells
Kommerzielle Anwendung
Teuken-7B ist als Open-Source-Modell verfügbar und kann kommerziell genutzt werden. Dies erlaubt es Unternehmen und Organisationen, eigene angepasste Modelle in realen Anwendungen zu betreiben. Sensible Daten können dabei im Unternehmen verbleiben, was die Datensicherheit erhöht. Das Modell bietet insbesondere internationalen Unternehmen einen Mehrwert, die auf mehrsprachige Kommunikation angewiesen sind.
Energie- und kosteneffizient
Das OpenGPT-X Team widmete sich neben dem Modelltraining auch der Effizienzsteigerung. Ein speziell entwickelter multilingualer Tokenizer reduziert die Trainingskosten im Vergleich zu anderen Tokenizern wie etwa Llama3 oder Mistral. Dies kommt insbesondere bei europäischen Sprachen mit langen Wörtern wie Deutsch, Finnisch oder Ungarisch zum Tragen. Auch im Betrieb von mehrsprachigen KI-Anwendungen können damit Effizienzsteigerungen erreicht werden.
Förderung und Partnerschaften
BMWK-Förderprogramm
Das Verbundprojekt OpenGPT-X wurde im Rahmen des BMWK-Förderprogramms "Innovative und praxisnahe Anwendungen und Datenräume im digitalen Ökosystem Gaia-X" gefördert. Somit ist Teuken-7B auch über die Gaia-X Infrastruktur zugänglich. Akteure im Gaia-X-Ökosystem können so innovative Sprachanwendungen entwickeln und in konkrete Anwendungsszenarien in ihren jeweiligen Domänen überführen.
Kooperationspartner
Das Projekt wurde unter der Leitung der Fraunhofer-Institute für Intelligente Analyse- und Informationssysteme IAIS und für Integrierte Schaltungen IIS durchgeführt. Zu den weiteren Partnern gehörten unter anderem das Forschungszentrum Jülich, der KI Bundesverband, die TU Dresden, das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), IONOS, Aleph Alpha, ControlExpert sowie der Westdeutsche Rundfunk (WDR).
Das Forschungsprojekt OpenGPT-X und das veröffentlichte KI-Sprachmodell Teuken-7B sind bedeutende Schritte hin zu einer stärkeren europäischen KI-Forschung und -Entwicklung.
Das Modell bietet eine leistungsfähige und effiziente Lösung für mehrsprachige Anwendungen und ermöglicht es Unternehmen, ihre KI-Projekte flexibel und sicher umzusetzen. Mit der Unterstützung des BMWK und der Beteiligung zahlreicher Partner aus Forschung und Industrie setzt OpenGPT-X ein starkes Zeichen für die Zukunft der KI in Europa.
Damit Ihnen in Zukunft keine aktuellen News oder Spar-Angebote entgehen, können Sie sich auch bei unserem kostenlosen Newsletter anmelden. Einmal in der Woche bekommen Sie dann eine Übersicht an Aktionen und wichtigen Änderungen im Telefonmarkt. Noch schneller sind Sie aber via Twitter und Facebook informiert.
Verwandte Nachrichten: |
|
Auf dieser Seite gibt es Affilate Links, die den Preis nicht beeinflussen. Damit wird der hochwertige Journalismus kostenfrei angeboten |
|