Welche Forschungsschwerpunkte der SFB im einzelnen hat, läßt
sich am einfachsten illustrieren, wenn man sie den einzelnen Teilschritten eines hier
vereinfachten Verarbeitungsprozesses zuordnet. Die Auswertung einer
natürlich-sprachlichen Eingabe beginnt, wenn man einmal von der im SFB nicht
schwerpunktmäßig thematisierten Spracherkennung absieht, in der Regel mit einer
syntaktischen Analyse des Eingabetextes. Diese Analyse liefert die syntaktische Struktur
der Sätze des Eingabetextes in Form von Strukturbäumen und/oder Merkmalsstrukturen. Um
Sätze einer Sprache automatisch syntaktisch analysieren zu können, benötigt man
einerseits eine präzise Beschreibung der syntaktischen Regeln dieser Sprache und
andererseits ein Verfahren, einen sogenannten Parsing-Algorithmus, mit dem man diese
Regeln in ein Computerprogramm überführen kann. Beide Komponenten basieren auf dem
Formalismus einer linguistischen Theorie.
Syntax
Die Verbesserung der Analyseverfahren und die präzise syntaktische Beschreibung bisher
wenig erforschter linguistischer Phänomene bilden deshalb zunächst die Hauptansatzpunkte
der Syntaxforschung des SFBs. Im Vordergrund steht aber auch - und das gilt nicht nur für
die Syntax, sondern auch für alle anderen Teilbereiche - die Theoriebildung. Gerade die
von ständiger Prüfung der empirischen Adäquatheit und formalen Tauglichkeit getriebene
Weiterentwicklung der Theorien trägt entscheidend dazu bei, die Computerlinguistik
langfristig auf bessere sprachtheoretische Grundlagen stützen zu können.
Bedeutung
Das zweite Forschungsfeld des SFBs, die Semantik, untersucht, wie sich die Bedeutung von
Sätzen aus den Bedeutungen der Wörter (und Konstituenten) und die Bedeutung von Texten
aus den Bedeutungen der Sätze ergibt. Analog zur Syntax benötigt man für die
Interpretation von Texten Regeln und ein möglichst effizientes Verfahren, das syntaktisch
analysierten Texten automatisch Repräsentationen ihrer Bedeutung zuordnet.
Einer durchaus zutreffenden Intuition folgend, wird manchmal behauptet, daß man einen
Text erst richtig versteht, wenn man auch weiß, was aus ihm folgt. Bei der Interpretation
von Texten handelt es sich demnach um einen Prozess, der ein relativ tiefes
Textverständnis erfordert, da für die Interpretation stets auch Informationen relevant
sind, die aus dem Text folgen.
Kontextwissen
Es ist deshalb nicht verwunderlich, daß gerade die Prinzipien und Mechanismen, die die
Textinterpretation auf der Basis des Kontextwissens steuern, immer noch weitgehend
ungeklärt sind. Sie sind immer noch Gegenstand der Grundlagenforschung und bilden ein
weiteres Forschungsziel des SFBs.
Die in natürlich-sprachlichen Texten auftretenden Mehrdeutigkeiten, deren Verwaltung
und Repräsentation insbesondere bei längeren Texten zu massiven Komplexitätsproblemen
geführt hat, haben darüber hinaus neue Forschungsaktivitäten initiiert, die ihren
Ursprung in der Computerlinguistik - genauer - in diesem SFB hatten. Um Mehrdeutigkeiten
effizient handhaben zu können, wurde mit der Entwicklung eines
Repräsentationsformalismus begonnen, mit dem man Mehrdeutigkeiten, wie etwa bei dem
englischen Satz He talked to the coach and the goalkeeper from Karlsruhe",
unterspezifiziert repräsentieren kann. Solche kompakten semantischen Repräsentationen
können parallel zur Verarbeitung des Kontextes dynamisch weiter spezifiziert werden, wenn
die Verarbeitung Information liefert, die bestimmte Lesarten als 'nicht möglich'
ausschließt.
Sie können aber auch zur Qualitätsverbesserung von Systemen, wie etwa maschinellen
Übersetzungssystemen, beitragen. Eine kompakte Repräsentation von Bedeutungsalternativen
eines Satzes ermöglicht es, in der Zielsprache nach einem Satz zu suchen, der, wie etwa
der deutsche Satz Er sprach mit dem Trainer und dem Torwart aus Karlsruhe",
ebenso mehrdeutig ist. Bleibt bei der Übersetzung die Mehrdeutigkeit (soweit möglich)
erhalten, ist das Ergebnis meist besser.
Die Repräsentation der Bedeutung eines Satzes oder Textes wird dann je nach Anwendung
weiterverarbeitet und in den meisten Fällen wiederum in eine semantische Repräsentation,
wie zum Beispiel die einer Antwort, überführt. Aus dieser werden schrittweise zunächst
syntaktische Strukturen und schließlich ein Text erzeugt. Die dafür benötigten
Verfahren, die sogenannten Generierungs-Algorithmen, basieren auf denselben syntaktischen
und semantischen Regeln wie die Parsing-Algorithmen, nur arbeiten sie sozusagen in
umgekehrter Richtung.