Das Mundartkorpus-Release 6.0 ist online.

  • Wiederum konnten wir das Korpus um ca. 5 Mio. Tokens (Textwörter) erweitern. Wir zählen aktuell etwas über 35 Mio. Tokens.
  • XML-CHMK: Mit diesem Release können wir nun erstmals alle urheberrechtlich eingeschränkten Korpustexte im XML-Format für Forschungszwecke zugänglich machen. Die Nutzungsvereinbarungen hierzu haben wir mit Rechtsexperten der Universität Zürich erarbeitet.
  • In Vorbereitung auf die Normalisierung haben wir bereits jetzt ein System zur Sprachidentifikation auf Satzebene trainiert und implementiert. Diese Sprachinformationen sind im XML-CHMK enthalten. Eine entsprechende Filtermöglichkeit in der Korpussuche folgt voraussichtlich mit dem nächsten Release.
  • Darüber hinaus haben wir kleinere Anpassungen an der Online-Korpussuche vorgenommen, darunter die Anordnung der Filter und die Positionierung des Popupfensters mit den Detailinformationen zum einzelnen Treffer.
  • Den Fehler mit dem doppelten Zweitglied bei Wortzusammensetzungen übers Zeilenende hinaus haben wir mit diesem Release behoben.

Wir wünschen viel Spass mit dem neuen Release!