Studium
Auf dieser Seite habe ich Materialien und Informationen rund um mein Studium bereitgestellt. Der Softwaretechnik-Studiengang ist eine Besonderheit in Stuttgart und ist im Gegensatz zum Informatik-Studiengang eher konstruktiv ausgerichtet. Das Grundstudium unterscheidet sich nur wenig vom Informatikstudium; neben einem breiten Durchlauf durch die Informatik in der Lehrveranstaltung "Einführung in die Informatik" werden solide Grundlagen in Höherer Mathematik, Theoretische Informatik und Technische Informatik gelegt. Softwaretechnische Prinzipien werden in "Einführung in die Softwaretechnik" besprochen, vor allem im Hinblick auf das Softwarepraktikum, in welchem in Dreiergruppen schon ein größeres, ein halbes Jahr dauerndes Projekt, durchgeführt wird. Weitere Fächer sind "Englisch für Softwaretechniker", "Numerische und Stochastische Grundlagen der Informatik" sowie jeweils ein Semester Betriebswirtschaftslehre und Marketing.
Im Hauptstudium hat man die Lehrveranstaltung "Software-Engineering für Softwaretechniker", die die "Einführung in die Softwaretechnik" fortsetzt und vertieft. Gleichzeitig hat man die Wahl drei weitere Hauptfächer und eine Vertiefungslinie zu wählen. Im Hauptstudium finden zwei Studienprojekte statt, dabei wird in Gruppen von 6-12 Studenten jeweils über ein Jahr eine gesamte Softwareentwicklung für einen Kunden (extern oder Uni-Institut) durchgeführt. Diese Projekte gehen auch im Bezug auf Umfang, Komplexität und Organisations- und Kommunikationserfordernis sehr nah in die Realität. Bis zur Diplomprüfung muss jeder Student zwei Industriepraktika über jeweils 2 Monate nachweisen.
Das Studium, welches momentan noch mit dem Diplom-Abschluss endet (wird auf Bachelor/Master umgestellt werden müssen), hat eine Regelstudienzeit von neun Semestern.
Eine genauere Auflistung der Themen der einzelnen von mir belegten Fächter findet man unten.
Mehr Informationen können auch in diesem Dokument von Prof. Ludewig nachgelesen werden.
Publikationen
Inhalte der einzelnen Fächer:
Gundstudium (1.-4. Semester)
Einführung in die Informatik I+II (WS 2005/06 + SS 2006, Prof. Dr. Volker Claus)
- Einführung in die Sprache Ada95
- Algorithmen, Sprachen und Grammatiken
- Daten und ihre Strukturierung
- Begriffe der Programmierung, Objektorientierung
- Abstrakte Datentypen
- Komplexität von Algorithmen und Programmen, Turingmaschine, Registermaschine, Landau-Notation
- Semantik von Programmen, Hoare'sche Regeln
- Suchen, Listen, AVL-Bäume, B-Bäume
- Hashing
- Sortieren
- Graphalgorithmen, Kürzeste Wege
- Speicherverwaltung
Höhere Mathematik I+II (WS 2005/06 + SS 2006, Prof. Eberhard Teufel)
- Grundlagen: Aussagenlogik, Mengen, Relationen, Abbildungen, Zahlenmengen, Gruppentheorie, Ringe, Körper.
- Lineare Algebra: Vektorräume, Lineare Abbildungen von Vektorräumen, Matrizen, Lineare Gleichungssysteme, Determinante einer Matrix, Eigenwerte und Diagonalisierbarkeit, Skalarprodukt.
- Analysis I: Konvergenz in metrischen Räumen, Zahlenfolgen und Zahlenreihen, Stetige Abbildungen in metrischen Räumen, Folgen und Reihen von Funktionen, Spezielle Funktionen.
- Analysis II: Differentiation von Funktionen einer reellen Variablen, Integration von Funktionen einer reellen Variablen, Differentiation und Integration von Funktionen mehrerer Variabler.
- Differentialgleichungen: Differentialgleichungen 1. Ordnung, Existenz und Eindeutigkeit von Anfangswertproblemen, lineare Systeme 1. Ordnung.
Logik (WS 2005/06, Prof. Javier Esparza)
- Aussagenlogik, Äquivalenz, Normalformen, Hornformeln, Resolution
- Hilbert-Kalkül
- Prädikatenlogik, Resolution
- Herbrand-Theorie
Programmierkurs Softwaretechnik (WS 2005/06, Markus Knauss)
- Programmierprinzipien
- Programmierrichtlinien, Programmdokumentation
- Programmieren im Team
- Testverfahren
English für Softwaretechniker (WS 2005/06, Pamela Nolan-Landwehr)
- Formal Englisch, Essays, Technical English
Technische Informatik I (SS 2006, Dr. Dominik Stoffel)
- Physikalische und elektrotechnische Grundlagen der Digitaltechnik (Elektrostatik, Gleichstromlehre, elektrische Netzwerke, Grundlagen der Halbleiterphysik und -technologie, pn-Übergang und Diode, MOS-Transistor, Logikschaltungen und Schaltungsfamilien). Gatter.
- Schaltungsmodellierung mit Hilfe Boolescher Funktionen und endlicher Automaten. Optimierung von Schlatungen (KV-Diagramme, Verfahren nach Quine und McCluskey), Implementierung digitaler Entwürfe.
Theoretische Informatik I+II (SS 2006 + WS 06/07, Dr. Holger Petersen)
- Sprachtheorie: Automatenmodelle und Grammatiktypen für die Sprachklassen der Chomsky-Hierarchie. Reguläre Ausdrücke, Minimierung endlicher Automaten, Iterationslemmata für reguläre und kontextfreie Sprachen, Normalformen, Kellerautomaten, Lösen des Wortproblems kontextfreier Sprachen mit dem CYK-Algorithmus, linear beschränkte Automaten, kontextsensitive Grammatiken, Typ 0-Grammatiken und Turingmaschinen.
- Berechenbarkeitstheorie: Turing-Berechenbarkeit, Churchsche These, primitiv und partiell rekursive Funktionen, Halteproblem und Unentscheidbarkeitsresultate.
- Komplexitätstheorie: deterministische und nichtdeterministische Polynomialzeit, NP-Vollständigkeit behandelt, Reduktionen von Entscheidbarkeitsproblemen.
Rechnerorganisation / Technische Informatik II (WS 06/07, Prof. Hans-Joachim Wunderlich)
- Arithmetisch/logische Grundelemente
- Hardware-Modellierung, Rechnerentwurf
- Operationswerke
- Steuerwerke
- Befehlszyklus und Unterbrechungen
- Pipelining
- Befehlsätze
- Struktur des MIPS-Prozessors
- Assemblerprogrammierung mit dem MIPS
Programmentwicklung (WS 06/07, Holger Röder, Rainer Schmidberger)
- Objektorientierte Analyse und Entwurf mit UML
- Einführung in die Programmiersprache Java
Einführung in die Softwaretechnik I (WS 06/07, Prof. Jochen Ludewig)
- Software Engineering
- Software Nutzen und Kosten
- Software-Qualitätssicherung und Prüfung
- Analyse und Spezifikation
- Entwurf, Architekturmuster
- Vorgehensmodelle
- Programmtest
Numerische und Stochastische Grundlagen der Informatik (WS 06/07, Prof. Dr. Peter Bastian)
- Numerik: Interpolations- und Integrationsverfahren, Numerische Lösung linearer Gleichungssysteme, Iterationsverfahren, gewöhnliche Differentialgleichungen.
- Stochastik: Zufall und Unsicherheit, diskrete und kontinuierliche Wahrscheinlichkeitsräume, Wahrscheinlichkeitsverteilungen
- Statistik (elementare induktive Statistik)
Einführung in die entscheidungsorientierte BWL (WS 06/07, Prof. Burr)
- Wenig konkretes. Entscheidung unter Risiko. Transaktionskosten.
Theoretische Informatik III (SS 2007, Prof. Ulrich Hertrampf)
- Strategien für den Algorithmenentwurf: Divide and Conquer, Greedy, Dynamische Programmierung, Backtracking;
Sortieren und Medianberechnung: Quicksort, Bottom-Up-Heapsort, Medianberechnung in linearer Zeit, Quickselect
- Komplexitätstheorie: Wichtige Komplexitätsklassen, Varianten algorithmischer Probleme, Grapherreichbarkeit, grundlegende Beziehungen, Satz von Savitch, Hierarchiesätze, Translationstechnik
- Formale Semantik: Semantik-Funktionen, die Sprache IMP, Operationale Semantik, Denotationale Semantik, Axiomatische Semantik
Einführung in die Softwaretechnik II (SS 2007, Dr. Dirk Nowotka)
- Analyse von Klassen-Diagrammen mit Alloy, Model-Checking, OCL
- State diagrams und Statecharts
- Activity diagrams und Petrinetze
- Message Sequence Charts
Softwarepaktikum (SS 2007)
- Durchführung einer vollständigen Softwareentwicklung in Gruppen von drei Studenten: Erstellung eines Werkzeuges in Java für den Programmtest.
Marketing (SS 2007, Prof. Dr. Dr. h.c. Ulli Arnold)
- Marktliche Austauschbeziehungen von Unternehmen
- Entscheidungsprobleme des Beschaffungsmanagement
- Entwicklung von Absatz und Strategien
- Marketinginstrumente
Hauptstudium
Software Engineering (WS 2007/08, Prof. Jochen Ludewig)
- Modelle
- Projektleitung
- Vorgehens- und Prozessmodelle
- Projektleitung
- Bewertung des Softwareprozesses / CMM
- Integration
- Configuration Management, Versionsverwaltung
- Wartung
- Reengineering
- Metriken
Grundlagen der Verteilten Systeme / Rechnerkommunikation und Betriebssysteme (WS 2007/08, Prof. Dr. Kurt Rothermel)
- Kommunikation: Nachrichten, Remote Procedure Call (RPC), Remote Method Invocation (RMI)
- Namensgebung: Generierung und Resolution
- Zeit und Uhren in verteilten Systemen: Anwendungen, logische Uhren, physikalische Uhren, Uhrensynchronisation
- Prozesssynchronisation: Wechselseitiger Ausschluß
- Globaler Zustand: Konzepte, Snapshot Algorithmus, verteiltes Debugging
- Transaktionsmanagement: Serialisierbarkeit, Sperrverfahren, 2-Phasen-Commit-Protokolle
- Datenreplikation: Primary Copy, Consensus-Protokolle und andere Algorithmen
- Sicherheit: Verfahren zur Geheimhaltung, Integrität, Schlüsselaustasch und Authentifikations- und Autorisierungprotokolle
- Broadcast-Algorithmen: Verarbeitungsmodell, Broadcast-Semantiken und -Algorithmen
Fachpraktikum graphische Benutzungsoberflächen (WS 2007/08)
- Win32-API, C
- Namensgebung: Generierung und Resolution
- WPF, XAML, C#
- HTML, AJAX, JavaScript, JSP
Anwendungsfach Verkehr: Grundlagen spurgeführter Verkehrssysteme (WS 2007/08, Prof. Dr.-Ing. Ullrich Martin)
- Strukturen der Eisenbahnen
- Systemsicherheit
- Bahnanlagen und ihre Gestaltung
- Fahrdynamik
- Trassierung
- Leit- und Steuerungstechnik
- Fahrzeugsysteme
- Betrieb von Schienenbahnen
Anwendungsfach Verkehr: Einführung in die Verkehrsplanung (WS 2007/08, Prof. Dr.-Ing. Markus Friedrich, Prof. Ressel)
- Verkehrsplanung, Modelle der Verkehrserzeugung, Umlegung und Routenwahl, Moduswahl, Verkehrsqualität, Öffentlicher Verkehr und IV.
- Planung von Straßen, Trassierung in der Ebene und in der Gradiente, Straßenquerschnitte.
Anwendungsfach Verkehr: Luftverkehr und Flughafenanlagen (SS 2008, Peter Veit / Prof. Dipl.-Oec. Georg Fundel)
- Entwicklung des Luftverkehrs
- Aufgaben der Flugsicherung
- Anlagen der Luft- und Landseite eines Flughafens
- Betriebsabwicklung auf Flughäfen
- Flughafenmanagement
Studienprojekt A: VC3/VICCC (Virtual Construction Company Competition)
- Softwareentwicklung in einer Gruppe von neun Studenten über ein Jahr.
- Kunde: Institut für Baubetriebslehre
- Entwicklung eines Simulationsspiels für die Durchführung von Bauprojekten
- Meine Rolle: Teamleiter Simulation
- Eingesetzte Technologien: C#, .NET 3.5, Silverlight, XML-Webservices, MS-SQL Server
- Begleitende Vorlesung: Software-Ergonomie
Rechnernetze I (SS 2008, Prof. Dr. Kurt Rothermel)
- ISO-OSI Modell Schichten 1-4:
- Bitübertragung: Theorem von Shannon, Übertragungsarten, Kodierung, Multiplexing
- Sicherung: Rahmenerstellung, Fehlererkennung und -korrektur, Flusskontrolle, Kanalauslastung, Verbindungsverwaltung, PPP.
- Direktverbindungsnetze: LAN, Ethernet, MAC (CSMA/CD, Aloha), Token Ring, Kopplung von LANs, Perlman-Algorithmus, VLANs.
- Vermittlung: Datagramme, Routing-Algorithmen (Shortest-Path, Link State, Distanzvektor), Überlastkontrolle, Queuing, Choking.
- Internetworking: Globale Addressierung, IP, ARP, DHCP, Architektur des globalen Internets, Subnetting, Klassenloses und hierarchisches Routing (RIP, OSPF, BGP), Skalierbarkeit und Robustheit, IP-Multicast (DVMRP, PIM-DM/SM, Core based trees), IPv6
- Transport: Ende-zu-Ende Fragen, TCP, Handshake, Adressierung, UDP, Fluss- und Überlastkontrolle auf Schicht 4 (Slowstart, Fast retransmit/fast recovery). Echtzeitkommunikation: Integrated Services und DiffServ.
Verkehrssicherung II (SS 2008, Prof. Dr.-Ing. Ullrich Martin)
- Sensoren, Weichenantriebe und Weichenverschlüsse, Signalrelais, Lichtsignale, Stromversorgungsanlagen, Gleisstromkreise, Achszählkreise, Zugschlussmeldeanlagen
- Regeleung der Zugfolge: Fahren im Raumabstand, Nichttechnische Sicherungsverfahren, Streckenblock, Felderblock, Zentraler selbstblock. Nachrücksignal, Halbregelabstand
- Fahrwegsicherung: Fahrstraßen und Fahrstraßenlogik, Festlegung, Annäherungsverschluss
- Zugbeeinflussung und Sicherung: Punktförmig (Indusi, Mechansich, Dauermagnetisch, galvanisch), Linienförmig (Schienenlinienleiter, Kabellinienleiter, Funk), Fahrzeugortung, ETCS
- Bahnübergänge
Transportlogistik/Operations Research im Verkehr (SS 2008, Stefan Tritschler)
- Lineare Optimierung
- Transportproblem
- Kürzeste Wege, Dijkstra
- Briefträgerproblem
- Tourenplanung
Computergestütztes Arbeiten im Eisenbahnwesen und öffentlichen Verkehr (SS 2008, verschiedene Dozenten)
- Fahrplanerstellung
- Simulation mit Railsys
- Leistungsuntersuchung mit PULEIV
- Gate- und Vorfeldpositionvergabe
- Betriebsleittechnik im ÖV und RBL
Studienprojekt B: AGAVE (Agentenbasierte Auswerteeinheit zur Verarbeitung von Diagnoseergebnissen)
- Softwareentwicklung in einer Gruppe von sechs Studenten über ein Jahr
- Kunde: Institut für Steuerungstechnik der Werkzeugmaschinen
- Entwicklung einer Software zur Durchsuchung und Verwaltung der technischen Dokumentation von Werkzeugmaschinen auf diesen Maschinen mit Möglichkeit Erfahrungswissen zu bewerten und hinzuzufügen
- Begleitende Vorlesung: Softwaretechnik für Prozessplanung und Leitsysteme II
Grundlagen der interaktiven Systeme (WS 2008/09, Prof. Daniel Weiskopf)
- Mensch-Computer-Interaktion (HCI)
- Meschliche Wahnehmung und Informationsverarbeitung
- Farbmetriken
- Ein- und Ausgabegeräte
- GUI-Design, Toolkits, Eventhandling, Interaktionstechniken
- Ergonomie, Normen, Dialoggestaltung
- Computergrafik
- 2D-Grafik: Rasterisierung, Clipping, Polygonfüllung, Affine Abbildungen, Alpha-Blending, Dithering
- 3D-Grafik: Pipeline und Transformationen, Szenengraph, Projektionen, Beleuchtung, Shading, Texturen, Interpolationen (Bezier, Spline)
- Virtual Reality
- OpenGL
Grundlagen Datenbanken und Informationssysteme (WS 2008/09, Prof. Bernhard Mitschang)
- Entity-Relationship Modell
- Relationenmodell und relationale Algebra
- Datendefinition und Manipulaiton mit SQL
- Integritätskontrolle, Zugriffskontrolle, Trigger, Indexstrukturen
- Transaktionen
- Datenbankentwurfstheorie, Armstrong-Axiome, Normalformen für Schemata, Synthese
Data Compression (WS 2008/09, Prof. Dr.-Ing. Sven Simon)
- Entropie, Informationsgehalt, Kodierungen, Quantisierung
- Shannon Fano Kodierung, Huffman Kodierung, Adaptive Huffman Kodierung
- Arithmetisches Kodieren
- Wörterbuchkomprimierung: LZ77, LZ78, gzip, LZW
- JPEG Komprimierung
Rechnernetze II (WS 2008/09, Prof. Dr. Kurt Rothermel)
- Socketprogrammierung
- Dastenrepräsentierung und Komprimierung: ASN.1, XDR, Verlustlose und verlustbehaftete Komprimierung.
- Multimedia Networking: RTSP, RTP, RTCP, Maßnahmen bei Verzögerung, Jitter und Paketverlust. SIP.
- Netzwerksicherheit: Diffie-Hellman Schlüsselaustausch, IPSec (AH, ESP, IKE),SSL/TLS.
- Elektronische Bezahlsysteme: Anonymous electronic cash, SET, Micropayments (Millicent), mobile payments.
- Aplication Layer Multicast: Overlaynetzwerke, Overcast (Baumbasiert), Narada (Mesh), Scribe (auf Pastry).
- Content based networks: Pub-Sub, Siena
- Geographic communication: GeoOSPF, GeoPIM-DM, Multicastbasiert (Abbildung Multicast-Adressen auf geographisches Gebiet), Directory-based (Raumfüllende Kurven auf DHT), Overlaynetz mit symbolischer Adressierung.
Mobile Computing (WS 2008/09, Prof. Dr. Kurt Rothermel)
- Luftschnittstelle: Frequenzen, Signalausbreitung, Geteiltes Medium: Multiplexing (Space, Time, Frequency, Code (Chipping-Sequenz))
- Media Access: Probleme Hidden Terminal/Exposed Terminal. Reservierungs-TDMA. MACA: Collision avoidance.
- Location Management: Such- vs. Updatekosten. Einführen von Hierarchien.
- Wireless Communication Systems: GSM-Architektur, HLR, VLR, LA, Zelle. Rufaufbauprotokolle, Handover, Sicherheit. GPRS, UMTS.
- Drahtlose LANs und PANs: IEEE 802.11: CSMA/CA, Rahmenformat, Synchronisation und Energiesparen, Sicherheit. Bluetooth: Pikonetze, Architektur, Paketdefinition, Verbindungsaufbau, Scatternets, Sicherheit.
- Mobile Ad-hoc Netzwerke: Herausforderungen und Eigenschaften, besondere Routing-Verfahren (Fluten, Reaktiv: DSR, AODV, LAR, DREAM; Proaktiv: OLSR; Grid location service).
- Mobile IP und Cellular IP
- Mobile Transportschicht: Schwächen von TCP bei drahtlosen Verbindungen ausgleichen durch Link-Layer-Protokolle (Snoop), Split-Connection-Protokolle (Indirektes TCP, M-TCP), Ende-zu-Ende Protokolle (Ausnutzen von Fast-Retransmit nach drei DupACKs), TCP über 3G.
- Service Discovery: Verfügbarkeit, Beschreibung und Nutzen von Diensten in mobilen Umgebungen. Jini und UPnP.
- Mobile Data Access: Broadcastprogramme (Wongs Algorithmus, Broadcast disks), Indexing on the air: Durch Index (Hash-bucket) weiß Endgerät wann relevante Information erwartet wird und kann unterdessen abschalten und Energie sparen.
Information Retrieval and Text Mining (SS 2009, Hinrich Schütze)
- Boolean Retrieval (Inverted Index, Postings list, Phrase queries, Biword Indexes, Positional Index)
- Dictionaries (Term lookup algorithms, wildcard queries, permuterm index, Spelling correction via weigthed edit or Levenshtein distance, Soundex)
- Index construction (BSBI, SPIMI, Distributed Indexing, Map-Reduce)
- Index compression (Heap's Law, Zipf's Law, Variable byte codes, Gamma codes)
- Ranked retrieval, Scoring (Term frequency weighting, document frequency weighting, vector space model, implementation, marginal relevance)
- Evaluation (Precision, Recall, F-Measure, Accuracy, Kappa)
- Relevance Feedback (Rocchio, Query Expansion)
- Text classification (Naive Bayes, Roccio classification, kNN, Feautre selection)
- Clustering (Flat: k-means, Hierarchical: agglomerative clustering, bisecting k-means, cluster labeling)
- Link analysis (Page Rank, HITS, Dynamic Summaries)
- Language Models in IR, Web search and crawling, Search engine ads, Duplicate detection
- Latent semantic indexing (Dimensionality reduction)
Evolutionäre Algorithmen (SS 2009, Prof. Dr. Volker Claus)
- Basisalgorithmus, Fitnessfunktion
- Operatoren und deren Implementierungsmöglichkeiten (Selektion, Rekombination, Mutation), Tabu-Suche, Shuffle
- Beispielprobleme für Evolutionäre Algorithmen: Optimierungsprobleme, C-Funktion, NP-Harte Probleme (TSP, SetCover, Transportproblem).
- Kodierung (Phänotyp/Genotyp), Nachbarschaftsbegriff, Gray-Code, Permutationen
- Genetischer Algorithmus (Schema-Theorem)
- Evlolutionsstrategien (Selbstadaptive Mutationsarten mit Standardabweichung)
- Genetischnes Programmieren
- Individuenbasierte Verfahren (Hill Climbing, Simulated annealing, Great deluge, ...)
- Ameisenkolonien und Partikelschwärme
Hauptseminar Opportunistic Networking (SS 2009, Prof. Dr. Kurt Rothermel)
- Mein Seminarthema: "Architektur für Delay Tolerant Networking am Beispiel Interplanetary Network".
- Verfassen eines Berichts und 45-Minuten Präsentation vor den Seminarteilnehmern sowie 15 Minuten Diskussion.
Fachstudie: Evaluation von Datenintegrationssystemen im e-Science Bereich (SS 2009)
- Zusammen mit zwei Kommilitonen.
- Klassifikation und Analyse existierender Datenintegrationssysteme aus dem wissenschaftlichen Bereich und Erstellen eines Evaluationsschemas.
- Installation ausgewählter Systeme und deren Evaluierung gemäß dem zuvor erstellten Evaluationsschema.
Diplomarbeit Jens Müller: Konzeption und Realisierung einer Experimentierumgebung für Sprachverarbeitungsverfahren auf der Basis von automatischer
Anfrageverarbeitung (WS 2009/2010, Prof. Dr. Hinrich Schütze)
Inhalt der Diplomarbeit ist die Konzeption und Realisierung des Piggyback-Rahmenwerks, welches Computerlinguisten darin unterstützen soll, Experimente mit Merkmalsvektoren für verschiedene Probleme der statistischen maschinellen Sprachverarbeitung durchzuführen. Besonderes Augenmerk wird auf die Verwendung von Suchergebnissen von Internet-Suchmaschinen gelegt, auf die Nutzer in Merkmalsfunktionen zugreifen können und welche als Ersatz für Weltwissen, insbesondere bei Kontextarmut, Verbesserung in der Klassifikationsgenauigkeit bringen können.
Der Entwurf und die Implementierung des erweiterbaren Rahmenwerks werden aus einer softwaretechnischen Sicht beschrieben. Das Rahmenwerk enthält statistische Klassifikatoren, Parser für Korpora, Zugriff auf Internet-Suchmaschinen und Maßnahmen, um diesen zu beschleunigen, sowie eine Komponente, um den Klassifikator zu evaluieren. Das Rahmenwerk, sowie der Ansatz, Suchergebnisse in Merkmalsfunktionen zu nutzen, werden anhand beispielhafter Probleme, wie Spracherkennung, Koreferenzauflösung und Eigennamenerkennung (insbesondere in Suchanfragen) evaluiert.
English: Design and prototypical implementation of an experimental framework for natural language processing based on automatic processing of search results
Topic of the thesis is the design and implementation of the Piggyback framework that supports natural language processing (NLP) scientists in experimenting with features for solving different kinds of statistical NLP problems. Special attention is given to the usage of web search results in feature functions, as substitute for world knowledge, which alleviates data sparseness.
This thesis makes the following contributions: The design and implementation of an extensible framework from a software engineering point of view, providing corpus parsers, statistical classifiers, access to web search engines and measures to reduce processing time, as well as an evaluation component. The evaluation of the framework as well as the piggyback approach for exemplary tasks such as Named Entity Recognition with focus on Named Entity Recognition in Query, Language Detection, and Coreference Resolution.