Workshop
Transcrição
Workshop
Sechstes Treffen des CRUS-Doktoratsprogramms Allgemeine und Vergleichende Literaturwissenschaft Sixième rencontre du programme doctoral CRUS en Littérature générale et comparée Perspektiven der Allgemeinen und Vergleichenden Literaturwissenschaft: Vorstellung aktueller Forschungsprojekte Perspectives de la Littérature générale et comparée : présentation des projets actuels 5.–7.3.2015, Tagungszentrum Boldern Workshop: Distant and Close Reading – Reader Peter Szondi: „Über philologische Erkenntnis“ [1967] Fotis Jannidis: „Computerphilologie“ [2007] Franco Moretti: „Style, Inc. Reflections on Seven Thousand Titles (British Novels, 1740–1850)“ [2009] Handbuch Literatu rwissenschaft Herausgegeben von Thomas Anz Band 2 Methoden und Theorien 1.2 Computerphilologie Der Begriff .Computerphilologie< hat sich seit Anfang der 1990er Jahre als Sammelbegriff für die Einsatzmöglichkeiten des Computers in der literaturwissenschaft etabliert. Zwei Medienrevolutionen haben die Geschichte der Computerphilologie bestimmt: Erfindung und Verbreitung des Computers (Digitalisierung) und das Internet (Vernetzung). Die erste Phase der Computerphilologie reicht von den Anfängen 1949 bis zur Mitte der 1980er und ist geprägt von den verwendeten Großrechnern. Die zweite Phase reicht von Mitte der 1980er Jahre bis Ende der 1990er Jahre und ist durch die allgemeine Verbreitung des Personal Computers und der CD als Speichermedium bestimmt. Die dritte Phase, die in den letzten Jahren der 1990er begonnen hat, steht unter dem Zeichen der weltweiten Vernetzung und der ersten Experimente mit Netzeffekten.6S Schon Roberto Busa, der 1949 mit seiner Arbeit an der computergestützten Erstellung einer Konkordanz zu den Werken Thomas von Aquins begann - eine Arbeit, die erst Jahrzehnte später abgeschlossen wurde -, war auf typische Probleme der Textbearbeitung am Computer gestoßen: Wie kann man Zeichen kodieren, die 65 Eine andere Einteilung schlägt der materialreiche Artikel von Susan Hockey vor, die viele der Entwicldun· gen selbst erlebt oder sogar beeinflusst hat; vgl. Susan Hockey: The History of Humanities Computing. In: Schreibman/Siernens/Unsworth 2004, 3-19. im Zeichensatz des Computers nicht vorhanden sind, und wie kann man nach Worten unabhängig von der konkreten Wortform suchen. 66 Der Terminus .Computerphilologie< ist in den 1980er Jahren als AnalogbUdung zum etablierte ren Begriff .Computerlinguistik< eingeführt worden, der damals noch die computergestützte Analyse und Verarbeitung von gesprochener Sprache und den inzwischen ausdifferenzierten Bereich der Korpuslinguistik umfasste. Zu den wichtigsten Meilensteinen der Geschichte der Computer philologie gehören das Erscheinen von leistungsfähigen Programmen, die es auch dem nichtprogrammierenden Philologen ermöglichten, mit digitalen Texten zu arbeiten, z. B. die Sammlung von Textbearbeitungsund Publikationswerkzeugen TUSTEP (Tübinger System von Textverarbeitungs-Programmen), die seit den 1970er Jahren bis nach 2000 immer weiter entwickelt worden ist, oder TACT (Text Analysis Computing Tools), ein Texlanalyse-Programm, das Ende der 1980er Jahre vor allem von John Bradley entwickelt wurde.61 66 Vgl. Roberto Busa: The Annals of Humanities Cornputing. The Index Thornisticus. In: Computers and the Humanities 14 (1980), 83-90. 67 Vgl. Wilhelrn Ou: Edition und Datenverarbeitung. In: Herbert Kraft (Hg.): EditionsplJilologie. Darrnstadt 1990, 59-70; lohn Bradley: TACT Design. In: CCH Workillg Papers I. Ig. (1991). Vgl. auch hup:/lwww. chass.utoronto.ca/epc/chwp/bradleyl (24.4.2007). Wichtige Momente der Entwicklung waren auch die institutionellen Veränderungen: 1970 gab es in Cambridge die erste Fachkonferenz, der regelmäßig weitere folgten. 1973 wurde die Association Jor Literary and Linguistic Computing gegründet, 1978 folgte in den USA die Association Jor Computers and the Humanities; die beiden Fachgesellschaften haben bald gemeinsam die Organisation der Konferenzen übernommen und operieren heute unter dem gemeinsamen Dach der Digital Humanities.68 1987 richtete Willard McCarty die E-Mail-Diskussionsliste HUMANIST ein, die er auch seitdem moderiert. Eine Reihe von disziplinären Selbsterforschungen hat sicherlich zur Klärung beigetragen, was unter >Computerphilologie< genau zu verstehen ist. 69 Ebenso wichtig waren einige Bücher: Hockey hat 1980 eine erste Einführung vorgelegt und 2000 erneut einen souveränen Überblick über wichtige Aspekte publiziert (vg!. Hockey 1980 und 2000). Seit 1999 erscheint in Deutschland das Jahrbuch Jür Computerphilologie im Druck und online. Mit dem Companion to Digital Humanities ist 2004 ein erster systematischer Gesamtüberblick erschienen (vg!. Schreibman/Siemens/Unsworth 2004). Einer der wichtigsten Texte ist jedoch vor allem im Internet verbreitet worden: 1987 traf sich erstmals eine Arbeitsgruppe von Philologen, die mit den Guidelines der Text Encoding Initiative (SperbergMcQueen/Burnard 2005) wohl eines der einflussreichsten Dokumente der Computerphilologie und des Humanities Computing insgesamt vorgelegt hat. 68 Vgl. The Alliance of Digital Humanities Organizations unter http://digitalhumanities.orgl (24.4.2007). die viele der internationalen Aktivitäten zusammenführt. 69 Vgl. Fotis Jannidis: Was ist Computerphilologie? In: Jahrbuch für Computerphilologie 1. Jg. (1999). 39-60; Jan Christoph Meister: Projekt Computerphilologie. Ober Geschichte, Verfahren und Theorie rechnergestützter Literaturwissenschaft. In: Harro Segeberg/Simone Winko (Hg.): Digitalität und Literalität. Zur Zukunft der Literatur. München 2005, 315-341 sowie die einschlägigen Aufsätze im Jahrbuch für Computerphilologie 4. Jg. (2002). Abstraktion Das Wissen über den Umgang mit dem Computer scheint von geradezu sprichwörtlicher Vergänglichkeit, und die Aussagen über Kennzahlen der Hardware oder über die Verwendung spezifischer Software veralten wirklich besonders schnell. Tatsächlich aber zeigt ein zweiter Blick, dass es Wissen gibt, das sehr viel widerständiger gegen den Lauf der Zeit ist, etwa die Kenntnis der Tatsache, dass im Computer Informationen langfristig in Dateien gespeichert werden und man diese öffnen muss, wenn man an die Informationen gelangen will. Dieses Wissen ist keineswegs resistent gegen Entwicklungen, es verändert sich nur sehr viel langsamer. Ein wesentlicher Bestandteil aller wissenschaftlichen Beschäftigung mit dem Computer ist die Suche nach den dauerhaften Prinzipien der Computerarbeit. Allerdings ist oft nur rückblickend zu ermitteln, welches Wissen langfristig stabil bleibt und welches schneller verfällt,7° Die Informatik hat für die Speicherung und Manipulation von Daten eine Reihe von abstrakten Prinzipien beschrieben, die zwar nicht konstant bleiben, aber eine relativ langsame Entwicklungsgeschwindigkeit aufweisen und gleichzeitig bei der Lösung von Problemen erprobte Werkzeuge zur Verfügung stellen. Analog dazu ist es die Aufgabe der Computerphilologie, solche dauerhaften Prinzipien zu ermitteln, zusammenzustellen und zu tradieren. Ein wichtiger Schlüssel zu dauerhafteren Prinzipien des computerphilologischen Wissens ist Abstraktion. Abstrahiert werden muss von den kontingenten Elementen, um die stabileren, dauerhafteren Elemente zu ermitteln, doch, wie schon erwähnt, ist diese Unterscheidung keineswegs einfach zu treffen. Andererseits wird der Computer auch in den Geisteswissenschaften inzwischen einige Jahrzehnte lang eingesetzt, und ein Blick auf die Entwicklung dieses Wissens macht die Arbeit heute leichter als noch vor zehn Jahren. Die automatisierte oder computergestützte inhaltliche und stilistische Textanalyse nutzt statistische Methoden, das Suchen in oder das Sortieren 70 Vgl. Thomas A. Standish: Data Structures in Java. Reading u.a 1998,6. von Texten verwendet ebenso wie die Konvertierung elektronischer Texte gut erforschte Programmier-Algorithmen. Größere Teile der Computerphilologie lassen sich jedoch nicht so formalisiert erfassen, etwa die Frage, welche Aspekte eines Textes in welcher Weise ausgezeichnet werden müssen; dennoch handelt es sich dabei um sprachlich formulierbare Regeln oder etwas vorsichtiger ausgedrückt, um Regelmäßigkeiten, und so kann man das philologische Textauszeichnungssystem der TEl auch als Versuch verstehen, das zentrale Wissen über die literaturwissenschaftliche und linguistische Textauszeichnung zu sammeln. Die Erfassung dieser Regelmäßigkeiten in so konziser Weise, dass man über sie diskutieren und sie eventuell auch falsifizieren kann, ist ein besonderes Ziel des neuen Teilfachs. Neben der Suche nach den computerphilologischen Prinzipien bildet die Auseinandersetzung mit den einschlägigen Standards einen weiteren Schlüssel zu beständigerem Wissen. Mit >Standard< ist in diesem Kontext die Verabredung gemeint, dass etwas so und nicht anders sein soll. In der innovationsgetriebenen Welt der Informationstechnologien müssen ständig neue Verabredungen getroffen werden, die das Zusammenspiel von neuer und alter Hard- und Software gewährleisten. Standards werden vor allem durch zwei Instanzen gesetzt: durch Firmen bzw. andere Institutionen in einem dezisionistischen Akt (man spricht dann etwas verharmlosend von Industrie- oder de factoStandard) oder durch unabhängige Standardisierungskomitees, zum Beispiel dasjenige, das für den internationalen ISO Standard verantwortlich ist. Inzwischen hat sich die Einsicht durchgesetzt, dass es ökonomisch unsinnig ist. die kostenintensiv erstellten Daten proprietären Standards anzuvertrauen, und es gibt eine ganze Reihe von Institutionen für offene Standards; die wichtigste davon ist das World Wide Web Consortium, das u. a. die Familie von Standards um die Textauszeichnungssprache XML entwickelt hat und betreut?' 71 Vgl. W3C hup:/Iwww.w3c.org(24.4.2007). Erstellung digitaler Texte Der elektronische Text ist Grundlage fast aller computerphilologischen Tätigkeiten. Anfangs war der digitale Text lediglich eine Stufe auf dem Weg zur Erstellung eines Drucktextes, inzwischen ist er auch Endprodukt in Form von elektronischen Editionen und fachspezifischen Informationssystemen oder literarischen Hypertexten. Unterschieden wird üblicherweise zwischen der Digitalisierung eines bereits vorhandenen Drucktextes (Retrodigitalisierung) und der Erstellung eines neuen digitalen Textes (born digital), etwa als digitale Edition einer Handschrift oder als Hyperfiction. Um einen Text oder einen Informationsbestand zu digitalisieren. müssen die Informationen, die im analogen Medium in den Buchstaben und den Satzzeichen, aber auch in der Typografie und dem Layout kodiert sind, auf das digitale Medium übertragen werden. Analoger Text kann im digitalen Medium als Bild oder als Folge von alphanumerischen Zeichen (Buchstaben, Zahlen, Satzzeichen usw.) gespeichert werden. Bilder werden im Computer prinzipiell anders kodiert als alphanumerische Zeichen. Letztere werden mittels eines Zahlenschlüssels kodiert, der vom verwendeten Zeichensatz, heute zumeist Unicode bzw. ISO/IEC 10646, abhängig ist. 72 Bilder dagegen werden in Bildpunkten mit Angaben zu Farben und Helligkeit abgespeichert. Da aber lediglich in solchen Texten gesucht werden kann, die als alphanumerische Zeichen gespeichert wurden, und Suchen die wesentliche Voraussetzung für alle fortgeschritteneren Verarbeitungstechniken darstellt, hat sich diese Form der Digitalisierung für Belange des Humanities Computing als Standard durchgesetzt. Speichert man Text als Zeichen folge digital, dann müssen alle Informationen, die über die bloße Buchstabeninformation hinausgehen, gesondert gespeichert werden. Bildet also im analogen Medium des Drucks etwa der Buchstabe >E< und sein Layout als Teil der Überschrift> Erstellung elektronischer Texte< immer eine Einheit von semantischer und typografischer Information, dann werden diese Informationen in digitalen Texten not- 72 Vgl. hUp:/Iwww.unicode.org(24.4.2007). Textkritik und Textbearbeitunq wcndigerweise getrennt behandelt. Hierin liegt eine grundsätzliche medien bedingte Veränderung in der Art und Weise. wie Schrift gespeichert wird. Eine der Folgen dieser medientedmischen Innovation besteht darin, dass die Freiheit, Text und Präsenhltion unabhängig voneinander handhaben zu können, in zahlreichen Anwendungen auch genutzt wird, um unterschiedliche Sichten auf den gleichen Text zu ermöglichen. Der übliche Produktionsweg bei der Digitalisierung eines gedruckt vorliegenden Werks besteht im Erfassen des Textes und im Anreichern des Textes mit zusätzlichen Informationen. Diese Schritte sind, das sei gleich vorweggeschickt, nur analytisch getrennt, in der Praxis aber oft Teil eines Arbeitsgangs. Für die Texterfassung haben sich zwei Wege etabliert: Das manuelle Erfassen und das Scannen mit anschließender automatisierter Zeichenerkennung. Vorteil der manuellen Eingabe ist. dass bereits während der Eingabe der Text (je nach Vorlage) mit basalen Auszeichnungen versehen werden kann und außerdem eine relativ hohe Fehlerfreiheit gewährleistet ist. Nachteil ist der Aufwand an Arbeitskraft. Für sehr aufwendige Proiekte wird der Text unabhängig zweimal eingegeben. In einem anschließenden Vergleichslauf mittels Computer werden dann alle Differenzen herausgeflltert, da sie wahrscheinlich Fehler anzeigen.'3 Das Scannen eines Textes erzeugt ein digitales Bild. Das gescannte Bild muss also für die Weiterverarbeitung erst mittels eines OCR-Programms (Optical eilt/raeter Recogllitioll) in eine Folge von alphanumerischen Zeichen umgewandelt werden. Problematisch ist die immer noch relativ große Fehlerdichte von gescannten Texten, die eine aufwendige manuelle Nachbearbeitung erfordert. Die Retrodigitalisierung deutschsprachiger Druckkultur sieht sich außerdem mit der außergewöhnlich breiten Varianz von Frakturschriften konfrolltiert, in denen die meisten Texte vor 1930 gedruckt wurden und deren Erfassung mittels OCR ein besonde73 Vt\1. Kurt Burch!\'era Hildenhrandt: Das digitale .Deutsche Wörterbuch· der BrüLkr Grimm. Vom Buchformat zur elektronhchen Publika tion. In: ßil>fiotlick Lllld lVisst!lIsd'clji 36. Jg. (2003) . res Problem darstellt, so dass die manuelle Erfassung bislang die ökonomischere Variante ist. Die Textauszeichnung (lIlarkllpl. also das Eintragen \'on ergiinzenden Angaben in den Text, kann teilweise direkt oder indirekt bei der Texterfassung oder automatisch aufgrund von vorhandenen Texteigenschaften erfolgen." Wenn es skh jedoch nicht um stark strukturierte Texte wie Wörterbücher oder Lexika handelt, dann wird eine mehr oder weniger aufwendige Bearbeitung durch einen Philologen notwendig sein, der Anmerkungen einträgt. verschiedene Textteile mittels Hyperlinks verbindet oder einen kritischen Apparat erstellt. Digitale Editionen werden zumeist in Autorensystemen oder mit Textbearbeitungsprogrammen erstellt, die einzelne Arbeitsschritte unterstützen, zum Beispiel die Kollationierung mehrerer Texte. Zur Publikation wird ein elektronischer Text zumeist noch dem Programm angepasst. mit dem man den Text lesen und auch in ihm suchen kann. Wie oben ausgeführt müssen alle Angaben im Text zusätzlich zu den alphanumerischen Zeichen eingebracht werden, sei es nun die Information. dass ein Wort fett zu drucken oder dass es als Hyperlink darzustellen ist. Anfangs geschah dies immer nur auf eine Weise, die lediglich mit dem Programm, das zur Ausgabe vorgesehen war, auch dargestellt werden konnte. doch diese enge Koppelung von Software und Textauszeichnung erwies sich aufgrund der schnellen Produktzyklen von Anwendungssoftware und Betriebssystemen bald als problematisch. AufSerdem stellte man fest, dass die Koppelung von Layoutinlormationen und semantischen Informationen. die durch die m edialen Gegebenheiten des Drucktextes so selbstverständlich erschien, im digitalen Medium problematisch ist. Anstatt einer Wortfolge die typografische Intormation 'Schriftgröße 14 pt. zuzuordnen, um damit dem Leser mitzuteilen. dass dies eine Überschrift ist. wird im Text die Information eingetragen. dass die vVortfolge eine Überschrift ist und dann - unabhängig \"om Text - die Intormation hinzugefügt. dass Überschriften dieser Art z. B. in Schriftgröße 14 pt wiederzugeben sind. Ein Vorteil dieser Vorgehensweise ist es. dass man nun durch eine einfache Änderung alle Überschriften anders gestalten kann. Außerdem kann man, etwa für ein Inhaltsverzeichnis, alle Überschriften aus dem Text extrahieren. Diese Unterscheidung zwischen typografischem und strukturellem Markup (vgl. Hockey 2000, 25) liegt allen modernen Textverarbeitungsprogrammen. vor allem aber auch der Konzeption moderner Auszeichnungssprachen, zugrunde. Heute unterscheidet man üblicherweise zwischen vier Formen des Markup: • Strukturelle Auszeichnung: Kodiert werden strukturelle oder logische Merkmale wie Kapitel, Strophen, Überschriften usw. • Präsentationale Auszeichnung: Kodiert werden typografische Aspekte eines Textes, z. B. Schriftart und -größe, Ausrichtung oder Zeilenabstand. • Referenzielle Auszeichnung: Alle Verknüpfungsinformationen in Form von Links, z. ß. zu Anmerkungen, Bildern oder anderen Dokumenten. • Funktionale Auszeichnung: Kodierte Segmente mit Anweisungen an den Parser oder ein anderes Programm, mit dem bestimmte Aktionen ausgelöst werden, z. B. Skriptanweisungen."; Als wesentliches Problem für alle digitalen Texte hat sich die langfristige Speicherung eines elektronischen Textes erwiesen: Die meisten kommerziell vertriebenen Editionen sind aufgrund ihrer proprietären Auszeichnung - also einer Auszeichnung, die von einer Firma nur für die Verarbeitung mit ihren eigenen Programmen entwickelt wurde - eng an das jeweilige Darstellungs- und Retrievalprogramm und damit an dessen Lebensdauer gekoppelt. Eine weitgehend betriebssystem- und softwareunabhängige Kodierung, die elektronischen Texten eine mit Drucktexten vergleichbare Lebensdauer ermöglichen soll. kann mit dem philologischen Textauszeichnungssystem der Text Ellcodillg Illiti(/til'" (TEl) erreicht werden. TEl setzt auf dem internationalen Standard für Auszeichnungs- 74 Zur 'lextauszeichnung vg l. Hockt·y 20(1) lind Allen Renear: Text Encoding. In: Schrdbm.ln/Siemensi l:n;\\"orth 2004. 75 Vgl. Derek Walker: Taking Snapshot; of the Web with a TEl Camera. In: COnlPlltt'l"S IIl1d thr HIIIIHlllities 33. Jg., 112 (19991. 1115-192. systeme XML (eXtellsible Markllp LlIIIgllllge)"'" auf. XML ist selbst keine Auszeichnungssprache, \'ielmehr ein Regelwerk, wie Auszeichnungssprachen definiert werden können, zum Beispiel XHTML oder eben TEl. Der Vorteil von XML ist, dass jeder Text, der mit einem so definierten System ausgezeichnet wurde, mit allen XML-kontormen Programmen weiterverarbeitet werden kann . TET ermöglicht die Notierung gattungsspezifischer Merkmale von Prosa, Lyrik und Drama sowie die Auszeichnung von Primärquellen und kritischen Editionen sowie von Transkriptionen gesprochener Sprache, von Wörterbüchern und terminologischen Datenbanken (vgl. Sperberg-McQueen/Burnard 2005)." Der Vorteil von TEl besteht vor allem darin, dass Philologen, die eine Edition konservieren möchten, einen Standard verwenden können, der seit fast zwanzig lahren in Entwicklung und Erprobung ist und der aus einer weltweiten Koopera tion von Fachwissenschaftlern hervorgegangen ist. Er wird inzwischen in zahlreichen, teilweise st!hr umfangreichen Editionsprojekten eingesetzt, was auch bedeutet, dass man im Falle von Problemen eine große Zahl möglicher Ansprechpartner hat. TEl wird inzwischen wie ein Open Suurce-Projekt geführt. d. h. alle Handbücher und Schemadateien sind frei verfügbar und auch die Überarbeitung ist öffentlich dokumentiert.'" TET hat jedoch auch einige Kachteile: Es bietet bislang kaum Möglichkeiten, die materialen Aspekte von Texten, z. B. die Gestaltung von Büchern oder die Topografie einer Handschrift präzise zu beschreiben. Die klare Trennung von Typografie bzw. Layout und Semantik, die im Design von XMI. angestrebt wurde, ist nicht in allen Fällen zu verwirklichen und noch nicht einmal immer wünschenswert. Allerdings gibt es inzwischen einschlägige Arbeitsgruppen in der TEl. und es ist zu 76 Zu XML \'gl. eXtensible Markup Language (XMLI l.n (Fourth Edition). W3C Recommendation 16 August 2006. edited in picKe 29 September 2006. http://w,,"\\". w3.orglTR/.2006/ REC-xml- 20U6011161 (24 .4.l007). 77 Zum Einsatz der TEl -Richtlinien bei Editioll.sprojekten vgl. Robinson 1994 und Fotis Jannidh: Wider da, Altern elektronischer Texte. Philologbdlt' Tcxtauszeichnung mit TEl. In: cditio 11. Jg. (19971.152 -177. 71\ \'gl. http://www.tei-c.org (14.5.2007). Jede Auszeichnung ist eine Interpretation des erwarten, dass entsprechende Module ergänzt werden. Ein weiterer Nachteil betrifft die hierarchische Textes. Einige Auszeichnungen können sich auf allStrukturierung der Daten und das aufgrund des gemein akzeptierte Standards stützen, andere koDesigns von XML entstehende Problem, wie man dieren aufgrund neuer Auffassungen, welche Textmit überlappenden Hierarchien umgehen soll. So aspekte wesentlich sind, alle aber notieren eine beliegt z. B. im Fall eines mehrbändigen Lexikons ei- stimmte Sichtweise des Textes. Das ist aber kein nerseits die Hierarchie >Lexikon - Einzelband - größeres Problem: Zum einen gilt dies auch für jede Seite - Spalte< vor, andererseits die Hierarchie >Ge- gedruckte Edition, zum anderen haben Textaussamtwerk - Buchstabenstrecke - Einzellemma mit zeichnungssysteme wie TEl nicht nur die MöglichEintrag<. Diese beiden Hierarchien überschneiden keit, mehrere Sichtweisen auf den Text parallel einsich ziemlich sicher; eine Spaltengrenze kann und zutragen, sondern sie stellen auch das Instrument wird mitten durch einen Eintrag verlaufen. Es gibt bereit, die gewählte Auszeichnung zu dokumentieeine ganze Reihe von Vorschlägen, wie mit diesem ren und damit zur Diskussion zu stellen. Problem der concurrent hierarchies effizient umgegangen werden kann, aber jede dieser Lösungen hat Verwendung elektronischer Texte speZifische Vor- und Nachteile.19 Die Auszeichnung eines historischen Textes ist stets eine philologische Tätigkeit. Das gilt für die Seitdem die begeisterten oder kulturkritischen Totrichtige Auswahl und Dokumentation der Text- sagungen der Gutenberg-Epoche nicht mehr die grundlage, für die Auswahl der Aspekte des Textes, Diskussion beherrschen, konnte sich die Einsicht die mit einer Auszeichnung versehen werden sol- durchsetzen, dass auch in diesem Fall ein neues len, und das gilt insbesondere, wenn dabei der Text Medium nicht zum Verschwinden des alten führt, mit anderen Informationen verknüpft wird und sondern zu einer Ausdifferenzierung der VerwenKommentare und Erläuterungen eingetragen wer- dungsweisen. Den Computer wird man auf absehden. Wie weiter unten noch ausgeführt wird, ent- bare Zeit nicht mit ins Bett nehmen, im Buch kann stehen einige typische Probleme des Text Retrieval man nicht schnell einmal etwas suchen lassen. In dadurch, dass im Normalfall nur nach Zeichenket- den letzten 20 Jahren der Verwendung von Persoten und nicht nach Sinneinheiten gesucht werden nal Computern haben sich im Wesentlichen drei kann. Dem lässt sich bereits bei der Textauszeich- Verwendungsweisen entwickelt: Das Lesen des nung dadurch begegnen, dass in den Text Normali- Textes am Bildschirm, das Information Retrieval sierungen der Schreibung und die Grundformen und die quantitative Analyse. der Wörter eingetragen werden. Auch die Disambiguierung von Homografen, seien es nun Worte oder Satzzeichen, macht den Text für spätere Information Retrieval Such- und Auswertungsoperationen brauchbarer; so kann man etwa die mittlere Satzlänge eines In elektronischen Editionen kann man suchen und Textes nur dann angemessen untersuchen, wenn das Gefundene zählen lassen: Das ist ihr entscheidas Programm in der Lage ist zwischen Punkten als dender Vorteil gegenüber herkömmlichen EditiSatzbegrenzern und als Abkürzungssignal zu un- onen. Die Suche und die Zählung können mit vorterscheiden. 80 her nicht zu erreichender Genauigkeit und Schnelligkeit durchgeführt werden. Allerdings kann im79 Vgl. Steven DeRose: Markup Overlap: A Review and a Horse. Extreme Markup Languages 2004. Proceedings. Unter: http://www.mulberrytech.com/Extreme/Pro ceedings/htm1/2004/DeRoseO 1/EML2004DeRoseO 1. html (24.4.2007). 80 Zu einem Überblick über diese Probleme am Beispiel der Erstellung von Wörterbüchern und Indices vgl. Kurt Gärtner/Peter Kühn: Indices und Konkordanzen zu historischen Texten des Deutschen. Bestandsaufnahmen, Typen. Herstellungsprobleme, Benutzungsmöglichkeiten. In: Werner Besch u. a. (Hg.): Sprachgeschichte. Ein Handbuch zur Geschichte der deutschen Sprache und ihrer Erforschung. Berlin/New York '1998. 715-742. mer nur nach >Zeichenketten< gesucht werden, also nach einer Reihe von Zeichen, ganz unabhängig davon, ob sich daraus Sinneinheiten wie Wörter ergeben. Soll eine Zeichenkette als Sinneinheit erkannt werden, muss dem Computer entweder mittels eines Algorithmus oder aufgrund der Textauszeichnung mitgeteilt werden, wie er aus den Zeichenketten Sinneinheiten bilden kann. Das beginnt mit dem relativ trivialen Problem der Varianz von Schreibungen in historischen Texten, umfasst die Variabilität von Wortformen in flektierenden Sprachen wie dem Deutschen und betrifft das gesamte PrlJbllem, wie vielfältig Wissen, das in mentalen Rel'räsentaltionen vorliegt, auf sprachliche Repräsenabgebildet werden kann. Unterschied zwischen der Suche nach Wörtern nach Zeichenketten wird bereits angesichts einfacher Dinge sichtbar: >Sein<, >seyn< und sind für ein Suchprogramm drei unterschiedZeichenketten. Wer über die zeitlichen Grenvon Sprachstandardisierungsprozessen und chtsctlrei,bn:fOl:mcm hinweg fündig werden will, entweder seine Suche entsprechend gestalten, nach >sein< und nach >seyn< suchen. oder ein verwenden, das lemmatisiert ist, in dem Worte auf ihre Grundform zurückgeführt und nur nach den Grundformen gesucht Diese Lösung wird man auch für den Forflektierender Sprachen verwenden, der Suche nach >laufen< auch die TextsteIlen , finden, in denen >läufst< oder >lief< vorkommt. vollkommen automatische Lemmatisierung für Texte der Gegenwartssprache bereits mit Ergebnissen vorgenommen werden, ist aber Texte noch nicht in greifbarer Nähe. verwendete Algorithmen sind wie die manuell Auszeichnungen übrigens immer Initerlllr.. des Textes aufgrund eines )ra,chrno,dells und Kontextwissens. .. ria•• r noch ist das Verhältnis von litera}'Uf\lI'1S1Ienschlaftlidlen Fragen und digitalen Texten. zielen üblicherweise, selbst wenn sie sich als , textnah verstehen, auf Wissensstrukturen, seien es Diskurse, Begriffe oder ästhetische ForIllen. Diese Wissensstrukturen automatisch auf digitale Texte zu beziehen, ist kaum möglich. So lässt sJch bislang ein Bildungsroman ebenso wenig algoPthnleIllbasielrt ermitteln wie die erlebte Rede. Des- halb ist man hier in erster Linie auf die philologische Erschließung durch Metadaten und entsprechende Auszeichnungen in der Edition angewiesen. Sind im digitalen Text z. B. Angaben zur Gattung oder zu Erzählformen eingetragen, können diese in großen Textsammlungen wiederum ausgewertet werden. Eine solche Aufbereitung digitaler Texte ist jedoch, wie auch die Verfahren des semantic webs, sehr arbeitsintensiv und entsprechend teuer; es ist daher unklar, ob sie in nennenswerter Weise zum Einsatz kommen werden. Bis dahin gilt weiterhin das Diktum von Susan Hockey, dass die Erstellung von Wortverzeichnissen und Konkordanzen die offensichtlichste Anwendung des Computers für literaturwissenschaftliche Untersuchungszwecke darstellt (vgl. Hockey 1980, 41), und, so kann man heute ergänzen, häufig wird in der publizierten Arbeit der Einsatz solcher computerphilologischer Verfahren nicht sichtbar. Inzwischen haben sich in der Suchtechnologie für digitale Texte eine Reihe von Standardverfahren etabliert, um eine Suche besser zu gestalten: • Zeichenkettenklassen mit Platzhaltern beschreiben; verallgemeinert: • Reguläre Ausdrücke • Boole'sche Operatoren wie UND, ODER und NICHT • Näheoperatoren, z. B. Suche das Wort x im Abstand von höchsten 10 Wörtern zum Wort y. • Verwendung von Strukturmerkmalen in der Suche, z. B. Suche nur in den Gedichten oder Suche nur in Texten zwischen 1795 und 1805 - das setzt eine entsprechende Auszeichnung der Texte voraus. • Die Suche verwendet Verfahren des Information Retrieval, um die Suchergebnisse zu gewichten und dann die Trefferliste nach besseren und schlechteren Treffern zu sortieren. Im Information Retrieval wird üblicherweise unterschieden zwischen Precision (Genauigkeit) und Recall (Vollständigkeit). Nehmen wir an, wir haben eine Dokumentensammlung mit 100 Dokumenten, von denen für eine bestimmte Anfrage 15 relevant sind (was relevant ist, bestimmt üblicherweise ein Experte in dem Wissensgebiet). Nehmen wir weiterhin an, eine Suche in den 100 Dokumenten zeigt 20 Dokumente als Treffer an; 12 der 15 relevanten , Dokumente gehören zur Treffermenge. Mit Precision bezeichnet man den Anteil der relevanten Dokumente unter den gefundenen Dokumenten, in diesem Fall wären das 12 von 20 Dokumenten. Recall gibt den Anteil der relevanten Dokumente an, die gefunden wurden. also 12 von 15 Dokumenten. Idealerweise würde man bei einer Suche sämtliche 15 relevanten Dokumente und nur diese als Ergebnis erhalten. In diesem Fall wären Precision und Recall gleich hoch. In unserer weniger idealen Welt stehen die Dinge meistens anders: Je höher der Recall. also die Anzahl der relevanten Dokumente in meinem Suchergebnis ist. umso mehr nicht relevante Dokumente sind zumeist gleichzeitig in meinem Resultatset. d. h. entsprechend niedriger ist der Wert für Precision. Umgekehrt: Wenn der Wert für die Precision meines Suchergebnisses hoch ist. also sehr viele der Dokumente. die ich als Ergebnis erhalten habe. wirklich relevant sind und nur wenige >falsche< Treffer dabei sind. dann ist zumeist der Wert für Recall niedriger. da auch viele relevante Dokumente nicht im Resultatset enthalten sind. Ein Problem haben also alle Suchstrategien: Man weiß nicht. was man nicht findet. Zwar kann man bei der Durchsicht einer Treffermenge gut erkennen. wie präzise die Suchanfrage war. also wie viele der gemeldeten Treffer tatsächlich im inhaltlichen Sinne als Treffer gezählt werden können. aber man weiß nicht. wie viele einschlägige Textstellen man gar nicht erst sieht. Das findet man erst heraus. wenn man den Text oder das gesamte Korpus durchliest - was immer seltener eine tatsächliche Option ist. 81 Quantitative Analyse Der Computer als number cruncher ist geradezu prädestiniert für quantitative Verfahren der Textuntersuchung. Solche Verfahren sind zwar keineswegs erst für den Computer erfunden worden. aber der Umfang des verarbeiteten Materials und die Kom81 Vgl. Reginald Ferber: Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen ulld das Web. Heidelberg 2003. Siehe auch Catherine N. Ball: Automated Text Analysis. Cautionary Tales. In: Literary and Linguistic Computing9. Jg.• 4 (1994). 295-302. plexität der Zugriffe können durch ihn deutlich gesteigert werden. Der größte Teil der quantitativen Verfahren. kurz die Stylometrie. wurde mit dem Ziel eingesetzt, Unterschiede und Ähnlichkeiten zwischen verschiedenen Texten zu belegen. sei es um die Autorschaft eines Textes zu klären, um Texte verschiedenen Entwicklungsabschnitten eines Autors zuzuordnen. um Epocheneinheiten zu beschreiben oder auch um zu überprüfen. ob es geschlechtsspezifische Unterschiede in der Textproduktion gibt. Stylometrie ist ein kleines Forschungsfeld. an dem neben Literaturwissenschaftlern auch Linguisten arbeiten. Ein praktisches Anwendungsfeld ist die forensische Linguistik. die z.B. die Zuschreibung von Erpresserbriefen untersucht. Die ersten quantitativen Ansätze finden sich bereits lange vor der Erfindung des Computers. Schon 1851 wurde erstmals der Vorschlag gemacht. die Authentizität eines Textes durch Vergleich der Wortlängen festzustellen. und noch im 19. Jh. wurden mit manuellen Mitteln die ersten quantitativen Studien durchgeführt (zur Geschichte der Stylometrie vgl. Romme11995, Kap. 1.3 sowie Oakes 1998). Die quantitative Stilanalyse hat seit ihren Anfängen eine ganze Reihe von verschiedenen Textmerkmalen herangezogen. um Thesen über Ähnlichkeiten oder Differenzen plausibel belegen zu können. Ausgangspunkt dafür sind unterschiedliche Stiltheorien. aus denen Hypothesen abgeleitet wurden. welche Merkmale relevant sind und welche davon sich statistisch überprüfen lassen. Zählt man, wie häufig in einem Text oder einer Textsammlung Wörter vorkommen. dann bilden diejenigen Wörter die größte Klasse. die nur sehr selten oder sogar nur einmal (hapax legomena) vorkommen. Nur wenige Wörter kommen häufiger vor. Da statistische Verfahren aber nur valide Ergebnisse bei größeren Zahlen aufweisen. stützt man sich zumeist auf die häufiger vorkommenden Wörter (vgl. Oakes 1998. 201). Die Stylometrie, die vor allem Unterschiede in den Blick bekommen möchte. die nicht bewusst von Autoren kontrolliert werden, hat u. a. folgende Textmerkmale zur Erfassung von Unterschieden herangezogen:82 82 Vgl. neben den im Text genannten Titeln Morton 1978, Burrows 1992 und Rosanne G. Potter: Statistical • positionen von Wörtern (Satzanfang. -mitte, -ende) • Kollokationen, also das Auftauchen von Wörtern im Kontext anderer Wörter • Unterschiede in der Satzlänge • Verhältnis von Type/Token, so kann etwa jede Form eines Lexems (>lief<. >läuft< usw.) als Token verstanden werden. das zum Type >laufen< zu beziehen ist. • Durchschnittliche Wortlängen • Vorkommen und Häufigkeit ausgewählter Substantive und Phrasen • Häufigkeitsverteilung von sehr häufig vorkommenden Wörtern • Häufigkeit von Trigrammen, also von drei Wörtern, die in der gleichen Folge vorkommen • Syntaktische Merkmale "Häufig werden mehrere Textmerkmale zum Ver,gleich herangezogen. da die Verwendung mehrerer Merkmale die Ergebnisse deutlich verbessert. Eimge Forscher haben daher sehr umfangreiche Merkmalslisten (40 und mehr) verwendet. . Voraussetzung für jeden quantitativen Vergleich eine gründliche historische Analyse des Materium typische Fehlerquellen wie z.B. Zitate, Plaoder Herausgebereingriffe auszuschließen. 8l ,GlruItdliage des Vergleichs ist eine einheitliche ErAufbereitung von Texten. z. B. eine Normalisierung. um die Ergebnisse durch orthografische Variation zu verfälwenn diese als kontingent erachtet werden Die Stichproben müssen groß genug sein, um : ß,I:attSti!ich valide Aussagen zu ermöglichen. Da man weiß. dass Gattungen die Schreibweise oelmrnmlen und Unterschiede zwischen AutoUnterschiede zwischen Gattungen überwerden können, müssen die Vergleichstexte Gattungen stammen. Die Korrelation der ausgewählten Textmerkmale kann dann mit unterschiedlichen statistischen Ver- Analysis of Literature: A Retrospective on Computers and the Humanities, 1966-1990. In: Computers and · the Humanities 25. Jg. (1991), 401-42. 83 Vgl. Joseph Rudman : Non-Traditional Authorship Attribution Studies in Eighteenth Century. Stylistics Statistics and the Computer. In: Jahrbuch für Computerphilologie 4. Jg. (2002), 151-166. ' fahren bestimmt werden (vgl. den Überblick in Oakes 1998). Ergebnisse solcher Untersuchungen sind stets statistische Aussagen: Mit einer Wahrscheinlichkeit von x Prozent sind die beiden Texte vom gleichen Autor. Das heißt. es gibt keine eindeutigen Sicherheiten. sondern lediglich Aussagen mit einer bestimmten Wahrscheinlichkeit. aber das gilt ja für sehr viele sozial- und naturwissenschaftliehe Aussagen auch. Immerhin sollte man sich darüber klar sein, dass stylometrische Befunde einen anderen Status haben als eine Notiz des Autors, dass dieser Text auch von ihm stammt. Stylometrische Verfahren machen bislang einen großen Teil der literaturwissenschaftlichen quantitativen Verfahren aus, aber sie sind nicht die einzigen. Ein Bereich, in dem in den letzten Jahren einige. zur Zeit noch relativ verstreute Arbeiten vorgelegt wurden. ist die Anwendung computerphilologischer Verfahren auf narratologische Fragestellungen. wohl weil die hohe Präzision der strukturalistischen Narratologie eine solche Verwendung ermöglicht. Jan Christoph Meister etwa hat in einer Reihe von Arbeiten die Begriffe >Ereignis< und >Handlung< untersucht. Er sammelt über ein eigens dafür geschaffenes Programm Einschätzungen von Lesern. welche Sätze oder Teilsätze eines literarischen Textes ein Ereignis ausmachen, welche Art von Ereignis vorliegt und wie diese Ereignisse zu Episoden verbunden werden. In einem zweiten Schritt wertet er die generierten Analysedaten mehrerer Benutzer aus. um auf diese Weise empirisch basierte Aussagen über den Handlungsaufbau von narrativen Texten machen zu können. 84 Semino und Short haben eine wichtige Arbeit zur Repräsentation von Sprechen, Schreiben und Denken in fiktionalen Texten, Zeitungsberichten und (auto-)biografischen Texten vorgelegt. Grundlage ihrer Analyse ist ein eigens dafür entwickeltes Korpus moderner englischsprachiger Texte. das mit einem selbst entwickelten System manuell ausgezeichnet wurde. 85 Vyacheslav Yevseyev hat in 84 Vgl. Jan Christoph Meister: Computillg Action. A Narratological Approach. Berlin/New York 2003. 85 Vgl. Elena Semino/Mick Short: Corpus Stylistic. Speech. Writing alld Thol/ght Presentation ill a Corpus of English Writing. London 2004. einem dreisprachigen Korpus von Erzähltexten quantitative Untersuchungen zur Narrativität in literarischen Texten durchgeführt und kommt unter anderem zu dem Ergebnis, dass längere Texte üblicherweise weniger narrativ sind als kürzere.86 David Herman hat anhand eines Korpus von Erzähltexten aus dem 19. und 20. Ih. Bewegungsverben untersucht, um mit ihnen Hypothesen über Unterschiede zwischen acht Textsorten (vier davon sind realistische und psychologische Erzählungen aus dem 19. Ih und dem 20 Jh.) zu prüfen; seine Ausgangshypothese, dass psychologisches Erzählen mit weniger und anderen Formen der Bewegungsbeschreibung einhergeht, ließ sich nicht bestätigenY Fotis Jannidis, Gerhard Lauer und Andrea Rapp haben überlegungen zum Aufbau eines Romankorpus mit Texten von 1500 bis 1900 und zu dessen buchhistorischer und klassisch-narratologischer Auszeichnung vorgelegt, das die Basis für quantitative historische Längsschnittuntersuchungen bilden soll.88 Franco Moretti hat quantitative Verfahren, vor allem basierend auf der Auswertung von Sekundärliteratur, verwendet, um langfristige historische Prozesse wie die Entwicklung des Romans, von Genres oder Erzähltechniken wie der erlebten Rede zu erfassen.89 Statistische Verfahren sind lediglich ein Werkzeug. Sie sind an keine besondere Form der Fragestellung gebunden und setzen auch keine spezi86 Vgl. Vyacheslav Yevseyev: Measuring Narrativity in Literary Texts. In: Jan Christoph Meister (Hg.): Narratology beyond Literary Criticism. Mediality, Disciplinarity. Berlin/New York 2005, 109-124. 87 Vgl. David Herman: Quantitative Methods in Narratology. A Corpus-Based Study of Motion Events in Stories. In: Jan Christoph Meister (Hg.): Narratology beyond Literary Crltlcism. Mediality. Disciplinarity. Berlin/New York 2005. 125-149. 88 Vgl. Fotis Jannidis/Gerhard LauerlAndrea Rapp: Hohe Romane und blaue Bibliotheken. Zum Forschungsprogramm einer computergestützten Buch- und Narratologiegeschichte des Romans in Deutschland (15001900). In: Lucas Marco Gisi/Jan Loop/Michaei Stolz (Hg.): Literatur und Literaturwissenschaft auf dem Weg zu den neuen Medien. germanistik.eh 2006. http:" www.germanistik.eh/scripts/download.php?id=Ho he_Romane_und_blaue_Bibliotheken (24.4.2007). 89 Vgl. Franco Moretti: Graphs, Maps, Trees. Abstract Models for a Literary Theory. London/New York 2005. fische Theorie voraus. Digitale Texte generieren nicht automatisch Daten über sich, sondern erst, wenn man höflich darum bittet (Burrows). Jede Frage aber ist wiederum eingebettet in einen interpretatorischen Kontext, in dem sie erst sinnvoll wird. Erst diese Vorannahmen und Hypothesen erlauben auch eine angemessene Interpretation der Daten, die vom Computer geliefert werden. Ganz anders als der Mythos vom objektiven und präzisen Computer erwarten lässt, werden hier Interpretationen aufgrund von Daten gewonnen, die wiederum auf Interpretationen basieren. Dies bedeutet keineswegs den Einstieg in die fröhliche Beliebigkeit. Ein Text kann nur aufgrund von Weltwissen angemessen verstanden werden; sinnvolle Fragestellungen sind daher stets in einen entsprechenden Deutungshorizont eingebettet. Computerphilologen sind daher besonders verpflichtet, ihre Vorannahmen und Hypothesen möglichst explizit darzulegen. Sie führen auch nicht automatisch zu inhaltlichen Ergebnissen. Vielmehr müssen die Ergebnisse quantitativer Untersuchungen immer interpretiert werden, was insbesondere bei uneindeutigen Ergebnissen nicht leicht fällt. Quantitative Verfahren werden in der literaturwissenschaft nicht immer gern gesehen: Bestätigen sie gängige Einsichten, stehen sie im Verdacht, überflüssig zu sein; widersprechen sie aber den üblichen Ansichten, schafft man sie sich mit dem Hinweis vom Hals, dass man Statistiken ohnehin nicht trauen könne. Letztendlich, so kann man mit kaum verhohlener Erleichterung hören, entziehen sich die wesentlichen literaturwissenschaftlichen Fragestellungen der Quantifizierung. Solche Vorbehalte übersehen die Chance, die sowohl in der Bestätigung des Bekannten als auch in der Problematisierung liebgewonnener Vorurteile durch neue und andere Forschungsmethoden liegt. Digitale Editionen Die Erstellung digitaler Editionen ist eines der Hauptarbeitsgebiete für Computerphilologen.90 Die 90 Vgl. zum Folgenden Folis Jannidis: Elektronische Edi- tion. In: Rüdiger Nutt-Kofuth/Bodo Plachta (Hg.): Editionen zu deutschsprachigen Autoren als Spiegel der erste deutschsprachige elektronische Edition eines von Lessing bis in die frühe Moderne.93 Die Digiumfangreichen literarischen Korpus ist die Digita- tale Bibliothek verwendet ein selbst entwickeltes lisierung der Hamburger Ausgabe von Goethes Programm mit einer proprietären Kodierung. Die Werken - allerdings ohne den Kommentarteil - Darstellung des Textes auf dem Bildschirm ist seidurch Randall 1. Jones und Helmut Schanze.91 Die tenorientiert, imitiert also das Buch, wodurch auch Edition wies bereits typische Vorteile philologisch das Zitieren vereinfacht wird. Der eigentliche Vorbetreuter elektronischer Editionen auf: Die Texte teil liegt in der ausgesprochen leistungsfähigen und waren relativ sorgfältig korrigiert worden, und das schnellen Suchmaschine, die die große Textmenge leistungsfähige Programm WordCruncher erlaubte erschließt. Neben den üblichen Möglichkeiten, die schnelle und recht komplexe Abfragen ein- Suche zu verfeinern (Trunkierung, Boole'sche Operatoren, Näheoperatoren, Einschränkung der Suche sc:hließlich einfacher Kollokationsanalysen. die erste kritische elektronische Edition, die auf bestimmte Texte), kann man auch eine themadeutschen Sprachraum erstellt wurde, verwen- tische Suche verwenden, die Information RetrievalWordCruncher: die Ausgabe des Nachlasses Techniken einsetzt. Die Ausgabe weist allerdings Robert Musil, herausgegeben von Friedbert im Vergleich zu den meisten von Philologen hergeKarl Eibl und Adolf Frise.92 Es han- stellten Editionen eine höhere Fehlerquote auf. Der Verlag Chadwyck-Healey hat sich schon sich um eine der wenigen Editionen, die nur Format vorliegen. Hauptanlie- früh auf sehr umfangreiche DigitalisierungsproEdition war die Vermittlung der Textinfor- jekte konzentriert und die gedruckten Ausgaben und der wichtigsten Autoreingriffe (Strei- von Nationalklassikern in verschiedenen Ländern Einfügung usw.), nicht aber die Wiedergabe digitalisiert; in Deutschland u. a. die Weimarer Ausder Manuskripte. Alle diakritischen gabe von Goethes Werken.94 Die exorbitant teure wurden als speZifische Zeichenketten defi- elektronische Weimarer Ausgabe enthält neben allerdings sind diese Zeichenketten für Word- dem kompletten Text der gedruckten Edition auch nicht unterscheidbar von den anderen, noch die Biedermann'sche Sammlung der Gedie so kodierte Information nicht automa- spräche mit Goethe. Zwar handelt es sich um eine SGML-kodierte Edition, aber ein wesentlicher Vorausgewertet werden kann. Laufe der 1990er Jahre setzten sich grafische teil des SGML-Standards, der ein Vorläufer von nul:zerschnit1:ste.llen und CD-ROMs allgemein XML ist und für langfristige Datenhaltung entwiund veränderten dadurch auch die Möglich- ckelt wurde, ist für die Käufer der Edition nicht vorfür digitale Editionen grundlegend. Erwäh- handen: die langfristige Verfügbarkeit des Textes, unter den schnell entstandenen Leseaus- da nur die kompilierte Form des Textes zusammen kommerziell publizierte Reihe Digitale mit dem Suchprogramm ausgeliefert wurde; inzwivon DirectMedia. Sie setzt ganz bewusst schen ist der Text nur noch über ein Webinterface wesentliche Stärke des Speichermediums zugänglich. Ein besonderer Vorteil der Edition bedie Masse. Ihr erster Band enthielt steht darin, dass der Anwender in seinen Suchab70.000 digitalen Seiten einen repräsenta- fragen gezielt die Struktur der Auszeichnung verQuerschnitt durch die kanonisierte Literatur wenden kann. Die Studienausgabe der Werke des jungen Goethe ist eine Hybridausgabe, deren elektronischer Bditionsgeschichte. Tlibingen 2005, 457-470. Zur hier Teil sieben Mal so umfangreich ist wie der genur knapp angesprochenen internationalen Entwick- druckte. Sie enthält neben den Texten Goethes 1I111g vgl. jetzt Burnard/O'Keeffe/Unsworth 2006. zahlreiche weitere Texte (z. B. spätere Texte GoeGoethe Werke. Hamburger Ausgabe. Elektronische Ver... 810n. Bearb. von Helmut Schanze. Tübingen 1989. MusiI: Der literarische Nachlaß. Hg. von Fried- 93 Deutsche Literatur von Lesslng bis Kafka. Digitale Bibert Aspetsberger/Karl Eibl/Adolf Frise. CD-ROM mit bliothek. Bd. 1. Die Basisbibliothek erschien 1997. . Handbuch und Erschließungsprogramm PEP. Rein- 94 Goethes Werke auf CD-Rom. Weimarer Ausgabe. Cambei Hamburg 1992. bridge u. a. 1995. thes, Berichte über Goethe, wichtige Bezugstexte, wie etwa die Bibel oder Hederichs mythologisches Lexikon), und vor allem die philologische Erschließung durch den Kommentar und die Verlinkung unterscheidet diese Studienausgabe von den oben erwähnten Leseausgaben.9s Das ursprünglich verwendete Programm Folioviews wird allerdings nicht mehr weiterentwickelt. Da die Herausgeber jedoch außerdem eine TEl -Version der Ausgabe erstellt haben, ist die Migration der Daten in eine Internet-Edition relativ unaufwendig. Der Oberfläche der Historisch-Kritischen Keller-Ausgabe (HKKA), herausgegeben von Walter Morgenthaler, ist anzumerken, dass ihre Entstehungszeit viele der hier genannten Entwicklungen überspannt: Sie ist eine Mischung aus einer DOSund einer Windows-Anwendung. 96 Die HKKA ist wahrscheinlich die innovationsreichste deutschsprachige elektronische historisch-kritische Edition. Ihre Basis ist ein Text, der - im Gegensatz zu den meisten anderen Editionen - in einer relationalen Datenbank abgelegt ist. Neben den üblichen Möglichkeiten, den Text zu durchsuchen, zeichnet sich die Edition vor allem durch die verschiedenen Sichten auf den Text aus. So kann der Leser eine Textstufe als Basistext wählen und aUe anderen Textstufen als Varianten anzeigen lassen; er muss also nicht die vom Editor gewählte als Basistext übernehmen. Auch in der Integration der Handschriften in die elektronische Edition geht die HKKA neue Wege. Die Handschriften, die in hoher Auflösung angezeigt werden können, werden auch dem Leser zugänglich gemacht, der Kellers Handschrift nicht lesen kann, da die Zeilen unter dem Mauszeiger auf Wunsch transkribiert angezeigt werden. Insgesamt gelingt es der Edition sehr gut, die medial bedingte starke Trennung von Text und Bild in der Benutzerschnittstelle zu überspielen. Ausgesprochen einflussreich für die internationale Editionsphilologie war Peter Robinsons Chau95 Kar! Eibl/Fotis Jannidis/Marianne Willems (Hg.): Der junge Goethe in seiner Zeit. Texte und Kontexte. In zwei Bänden und einer CD-ROM. Frankfurt a. M. 1998. 96 Walter Morgenthaler (Hg.): Gottfried Keller: Sämtliche Werke. (Medienkombination) 1996ff. Vgl. zur Geschichte dieser Edition Walter Morgenthaler: Gottfried Keller - elektronisch ediert. In: Jahrbuch für Computerphilologie 1. Jg. (1999), 91-100. cer-Edition, die für einzelne Teile des Werks die gesamte Überlieferung digital aufbereitet, Text und Bild plausibel integriert und für die Ermittlung des Stemmas Algorithmen aus der Bioinformatik testet, die dort zur Abstammungsermittlung von DNA-Sequenzen eingesetzt werden. Ebenso wichtig sind Robinsons Ideen, wie man die Fülle an Varianz in antiken oder mittelalterlichen Texten intuitiv und einfach visualisieren kann.97 Die Vernetzung hat die Distribution von digitalen Texten vereinfacht. Dies war und ist für die meisten Editionen immer noch die Hauptfunktion der Publikation im Internet. 98 Außerdem hat sie inzwischen auch neue Formen der Zusammenarbeit hervorgebracht. Mustergültig ist dies beim Hypernietzsche-Projekt umgesetzt99: Die Projektverantwortlichen sehen ihre Hauptaufgabe weniger im Erstellen einer spezifischen Edition, sondern vielmehr darin, eine Plattform zu entwickeln, die es anderen ermöglicht, Editionen zu erstellen und auch die Forschungsliteratur über den edierten Autor unter einer gemeinsamen Oberfläche zugänglich zu machen. Ganz folgerichtig gibt es daher nun neben dem eigentlichen Hypernietzsche, in dessen Kern Bilddigitalisate des Weimarer Nietzsche-Archivs stehen, ein allgemeines Projekt namens Hyper, das auch für andere Autoren Verwendung finden soll. Weitere Aspekte Ein vergleichsweise umfangreiches Teilgebiet der Computerphilologie ist die Hypertexttheorie und die Auseinandersetzung ·mit Hyperfiction, also künstlerischen Hypertexten (vgl. dazu 1.7.6). Außerdem haben sich neben den genannten Arbeitsschwerpunkten eine Reihe von anderen Ansätzen entwickelt, von denen noch nicht klar ist, inwieweit 97 Vgl. Peter Robinson: Where We Are With Electronic Scholarly Editions, And Where We Want To Be. In: Jahrbuch für Computerphilologie 5. Jg. (2003), 125146. 98 VgJ. Z. B. das renommierte Women Writers Project unter http://www.wwp.brown.edu (24.4.2007) oder das Dickinson Electronic Archive unter http://www.emily dickinson.org (24.4.2007). 99 VgJ. http://www.hypernietzsche.org (24.4.2007). sie solitäre Unternehmungen sind oder zu umfangreicheren Arbeitsfeldern anwachsen werden. Ein so junges Teilfach wie die Computerphilologie, das zudem an die ausgesprochen dynamische Entwicklung der Informationstechnologien angekoppelt ist, ist in vielfacher Weise noch unbestimmt und entwicklungsoffen. Einige dieser Trends seien hier zumindest angesprochen. Das Programmieren von spezifischen Anwendungen für Literaturwissenschaftier: Wie eingangs erwähnt, gehört die Verfügbarkeit von Programinen und Programmpaketen wie TUSTEP oder .' TACT zu den wichtigen Stationen der Geschichte Fachs. Die weitere Entwicklung in diesem Feld sicherlich weniger durch den selbst programqU,erelndEm Literaturwissenschaftier als durch Kozwischen Literaturwissenschaftlern Informatikern geprägt. Die oben erwähnte und Publikationsplattform von Hypergehört zu derartig gestalteten Projekten auch Textgrid, das eine servicebasierte Netzarfür das Erstellen und Verwenden literaEditionen aufbaut. lOo Ediwerden dann ihre Texte in einem auf ihre Bezugeschnittenen XML-Editor eingeben auszeichnen können; zugleich werden sie Aufdie bei der Erstellung von Editionen und anfallen, z. B. die Kollationierung oder die durch den Aufruf von Webseraus ihrer Arbeitsumgebung heraus bearbeiten Hinzu kommt die Unterstützung der editiISp.l1il()!ojgisj;he,n und korpuslinguistischen Arbeit die Anbindung an andere Editionen und sowie an historische Wörterbücher. Visualisierung literaturwissenschaftlicher InrmaU,omm z. B. in Editionen: In digitalen Texten bekanntlich die Daten und die Sichten auf die unterschieden, aber dadurch stellen sich Fragen: Welche Sichten sind besonders effizizur Vermittlung des zumeist relativ abstrakten Wissens. Die buchbaVisualisierungsstrategien haben sich über afil:hllindierite hinweg entwickelt und die sehr viel Möglichkeiten des digitalen Mediums, nicht nur schrankenlos Text, Bild, Film und Vgl. http://www.textgrid.de (24.4.2007). Ton mischen, sondern auch interaktive und dynamische Schnittstellen zur Verfügung stellen kann, sind noch lange nicht ausgereizt. Beispiele für die Zusammenarbeit von einschlägigen Spezialisten für die Gestaltung von Human Computer Interfaces und Visualisierungen von komplexen Daten mit Philologen und Editionsspezialisten lassen erahnen, welcher Reichtum an Möglichkeiten hier noch zu erschließen ist. 101 Zu erwähnen ist auch der Einsatz von E-Learning für die Vermittlung von literaturwissenschaftlichem Wissen 102 oder die Veränderung der Wissensehaftskommunikation (vgl. II1.4.2) durch den Einsatz von Computern, z. B. durch Online-Zeitschriften wie IASLoniine oder das bereits erwähnte Hyper. Computerphilologie hat sich in den letzten Jahrzehnten als kleines, aber dynamisches Teilfach der Literaturwissenschaft etablieren können. Dabei konnte in den verschiedenen Arbeitsfeldern bereits ein umfassender Bestand an etabliertem Wissen gesammelt werden, aber sicherlich ist die Zeit des ständigen Experimentierens mit neuen Formen der Wissensgewinnung noch nicht abgeschlossen. Literatur Burnard, LoufO'Keeffe, Katherine O'BrienfUnsworth, John (Hg.): Electronic Textual Editing. New York 2006. Burrows, John F.: Computers and the Study of Literature. In: Christopher S. Butler (Hg.): Computers and Written Texts. Oxford 1992, 167-204. Hockey, Susan: A Guide to Computer Applications in the Humanities. London 1980. Hockey, Susan: Elee/ronic Texts in the Humanities. Oxford 2000. Jannidis, Fotis: Computerphilologie. StuttgartfWeimar 2008. 101 Vgl. Aurele CrassonfJean-Daniel Fekete: Structuralion des manuscrits. Du corpus it la region. In: Proceedings ofCIFED 2004. La Rochelle 2004,162-168. http://www.lrLfrf-fekete/ps/CrassonFeketeCifed04final.pdf (24.4.2007). 102 Vgl. Jochen Vogt: Ehlladung zur Literaturwissenschaft. München 2002 und die zugehörige Website http://www.uni-essen.de/einladung (24.4.2007); oder Katrin Fischer (Hg.): Literatllrwissenschaftliche Begriffe online: hup:llwww.li-go.de (24.4.2007). Morton. Andrew Queen: Literary De/ee/ion. How to prove authorship and fraud in literature and doeuments. New York 1978. Oakes. Michael P.: Statistics for Corpus Linguisties. Edinburgh 1998. Robinson. Peter: The Transcription of Primary Textual Sources. Oxford 1994. Rommel. Thomas: »And trace it in this poem every Une«. Methoden und Verfahren computerunterstützter Text- analyse am Beispiel von Lord Byrons Don Juan. Tübingen 1995. Schreibman. Susan/Siemens. Ray/Unsworth. John (Hg.): A Companion to Digital Humanities. Oxford u. a. 2004. Sperberg-McQueen. C. Michael/Burnard. Lou: TEl PS. Guidelines for Eleetronic Text Encoding and Interchange. Oxford u.a. 2005. http ://www.tei-c.org/P5/ (24.4.2007). Fotis Jannidis !"#$%&'()*+',%-$%*"./)0'/)'!%1%)'23/405)6'2."$%0'789.".03':/1%$0&';<=>?;@A>B C4"3/970BD'E95)*/'F/9%"". !/49*%D'G9.".*5$'()H4.9#&'I/$+'JK&':/+';'7C4"4L)'M>>NB&'OO+';J=P;A@ Q4R$.03%6'R#D'The University of Chicago Press !"5R$%'S,TD'http://www.jstor.org/stable/10.1086/606125 . C**%00%6D'>KU>=UM>;;';ADMM Your use of the JSTOR archive indicates your acceptance of JSTOR's Terms and Conditions of Use, available at . http://www.jstor.org/page/info/about/policies/terms.jsp. JSTOR's Terms and Conditions of Use provides, in part, that unless you have obtained prior permission, you may not download an entire issue of a journal or multiple copies of articles, and you may use content in the JSTOR archive only for your personal, non-commercial use. Please contact the publisher regarding any further use of this work. Publisher contact information may be obtained at . http://www.jstor.org/action/showPublisher?publisherCode=ucpress. . Each copy of any part of a JSTOR transmission must contain the same copyright notice that appears on the screen or printed page of such transmission. JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact [email protected]. The University of Chicago Press is collaborating with JSTOR to digitize, preserve and extend access to Critical Inquiry. http://www.jstor.org Style, Inc. Reflections on Seven Thousand Titles (British Novels, 1740 –1850) Franco Moretti Un beau titre est le vrai proxénète d’un livre. —ANTOINE FURETIÈRE The British novel, from 1740 to 1850. Peripheral, often despised at the beginning of the period, by its end the novel has moved very close to the core of the national culture. So, this is an important century, for this literary form. But, truth be told, the historical framework of this study has been largely dictated by an extrinsic reason: unlike earlier and later periods, from 1740 to 1850 we have very good bibliographies. Which is to say, good lists of titles; in a few years, we will have a digital archive with the full texts of (almost) all novels ever published; but for now, titles are still the best way to go beyond the 1 percent of novels that make up the canon, and catch a glimpse of the literary field as a whole. And then, titles are not just a good research tool: they are important in themselves—Walter Scott’s first word as a novelist, literally, was “title” (“The title of this work has not been chosen without the grave and solid deliberation”)1—and they are important because, as Claude Duchet has put it, they are “a coded message—in a market situation.”2 A code, in This article has been greatly improved by exchanges with Sam Bowles, David Brewer, Bob Folkenflik, Matthew Jockers, David Krakauer, and Michael Silverstein; to all of them, my thanks. A further, more abstract study (coauthored with Jockers and Krakauer) should soon extend and refine the argument that follows. 1. Walter Scott, Waverley, ed. Andrew Hook (Harmondsworth, 1972), p. 33. 2. Claude Duchet, “‘La Fille abandonnée’ et ‘La Bête humaine’: Éléments de titrologie romanesque,” Littérature 12 (Dec. 1973): 50; my trans. Critical Inquiry 36 (Autumn 2009) © 2009 by The University of Chicago. 0093-1896/09/3601-0003$10.00. All rights reserved. 134 Critical Inquiry / Autumn 2009 1 . Unless otherwise indicated, the sources of all the figures are the following: 1740 – 49: Jerry C. Beasley, Novels of the 1740s (Athens, Ga., 1982) 1750 – 69: British Fiction, 1750 –1770: A Chronological Check-List of Prose Fiction Printed in Britain and Ireland, ed. James Raven (Newark, Del., 1987) 1770 –1829: Peter Garside et al., The English Novel, 1770 –1829: A Bibliographical Survey of Prose Fiction Published in the British Isles, 2 vols. (Oxford, 2000) 1830–36: “The British Novel 1830–36: A Bibliographical Survey of Fiction Published in the British Isles,” ed. Garside et al., www.cardiff.ac.uk/encap/journals/corvey/1830s/index.html 1837–50: Andrew Block, The English Novel, 1740–1850: A Catalogue Including Prose Romances, Short Stories, and Translations of Foreign Fiction, 2d ed. (London, 1961) The chart follows both mean and median length in order to offer a more complete picture of how titles vary: the mean (or average) provides information about the often extravagant length of some titles—while the median draws attention to the “central” length of each given year (that is to say, that which has an equal number of results above and below it). The difference between the two forms of measurement becomes particularly clear in years such as1780 (with the 346-word-long History of Miss Harriot Fairfax) or 1784 (with the 273 words of The Maid of the Farm; Or memoirs of Susannah James): in these two instances, the mean balloons to 37.9 and 19.7 respectively, while the median (8.5 and 7) is hardly affected. FIGURE the market: half sign, half ad, the title is where the novel as language meets the novel as commodity, and their encounter can be extremely illuminating. In what follows, I focus on three moments of this history: first, I describe a major metamorphosis of eighteenth-century titles, and try to explain its causes; next, I suggest how a new type of title that F R A N C O M O R E T T I teaches literature at Stanford University. His most recent books have been Atlas of the European Novel, 1800 –1900 (1998) and Graphs, Maps, Trees (2005). 135 136 Franco Moretti / Style, Inc. emerged around 1800 may have changed what readers expected of novels; and finally, I make a little attempt at quantitative stylistics, examining some strategies by which titles point to specific genres. Three sections; three pieces in the large puzzle of the literary field. 1 The major metamorphosis of eighteenth-century titles is simple: in the space of two generations, they become much much shorter. In figure 1, where their length is measured in the number of words, the median oscillates between ten and twenty words for the first twenty-five years; it drops quickly to ten, around 1770; then to six, by 1790; and it remains there (with minor ups and downs) until the mid-nineteenth century. From fifteen– twenty words, to six. And titles don’t just become shorter, in the course of these 110 years, they also become much more similar to each other: in figure 2, the steep drop of the standard deviation (which measures the degree of variation within a system) indicates precisely how rapidly the range of options is shrinking. To understand what this means, look at the distribution of mid-eighteenth-century titles in figure 3: many of them are already quite short, with between one and ten words, but there is still a lot of variety, with plenty of titles that use fifteen words, twenty, twenty-five, thirty, forty, or more. A hundred years later (fig. 4) this tail is gone, and long titles have virtually vanished.3 It’s not just that all titles are becoming shorter, in other words; it’s also that a certain type of title disappears altogether. How long is long is of course an open question, but if we set the limit at fifteen or twenty words—which is quite long, for a title—then long titles were between 40 and 60 percent of the total in the mid-eighteenth century (fig. 5); by 1800 their number had already dropped to 5–10 percent; eventually, they just disappeared.4 3. The thirty novels in the New York Times best-seller list in November 2006 used between one and six words; the forty in November 2008, between one and seven. In both cases, the mean was around 2.7 words—slightly higher than Austen’s 2. 4. Counting the number of words in a title . . . But what exactly is a title? Among the novels for the year 1802, Peter Garside’s masterful bibliography lists Delaval. A Novel. In three Volumes. But are expressions that point so explicitly to extratextual realities like “in three Volumes” (or “dedicated to Her Royal Highness The Duchess of York,” “from the French of M. Victor Hugo,” and so on) really part of the title? In my opinion, no; and so, useful as such information is in other respects, I have removed it from the database, leaving the title in question as Delaval. A Novel. But what about “A Novel” (“A Romance,” “A Tale,” “In a Series of Letters”)? Here, the reference is not so much extra-, as metatextual: all these markers designate a class, rather than a specific book: invaluable for the analysis of novelistic subgenres, they have little or nothing to say about individual cases. As a consequence, I have preserved them the first few times they appear in a title (when they are presumably indicating something new and specific about the given book), and deleted them thereafter; making an exception for those bizarre cases where the wider class is evoked only in order to estrange it: “A Rhapsodical Romance,” “A Dramatic FIGURE 2. FIGURE 3. FIGURE 4. FIGURE 5. Critical Inquiry / Autumn 2009 Why? And, before coming to that, what were they like, those long titles? What did they do, with all those words? Usually, they provided a summary of the novel: A letter from H— g— g, Esq; One of the Gentlemen of the Bedchamber to the Young Chevalier, And the Only Person of his Retinue that attended him from Avignon, in his late Journey through Germany, and elsewhere; Containing Many remarkable and Affecting Occurrences which happened to the P— during the course of his mysterious Progress. To a Particular Friend. Today, this sounds odd; but actually, a summary at the beginning of a novel makes sense: a novel is a narrative, and the title—the title page, here one sees why books needed a whole page for their title—the title-assummary was a shorter narrative: it presented the main events of the story, the characters, the setting, the ending. It made sense. But, the cultural ecosystem was changing in a way that was incompatible with it: in the course of the eighteenth century, the publication of novels in Britain grew dramatically (fig. 7), from a few books a year in the early decades, to twenty-five or so in mid-century, seventy– eighty around 1800, and about one hundred a year in early Victorian times. And as more novels circulated, two things happened. In the third, and even more so in the fourth quarter of the eighteenth century, the Monthly and other magazines started to publish reviews of many new novels, making title page summaries somewhat superfluous: as the literary system grew, in other words, some of its functions became more specialized, freeing titles from having to provide a detailed description. And then, as the number of new novels kept increasing, each of them had inevitably a much smaller window of visibility on the market, and it became vital for a title to catch quickly and effectively the eye of the public. Summaries were not good at that. They were good at describing a book in isolation: but when it came to standing out in a crowded marketplace, short titles were better—much easier to remember, to begin with (but not only). That’s why long titles disappeared: because between the size of the market, and the length of titles, a strong negative correlation emerged: as the one expanded, the other contracted. Nothing much had changed, in the length of titles, for a century and a half, as long as the production of novels had remained stable around Novel,” “A Neapolitan Tale”—and also, sure enough, “A Novel Without a Hero.” This said, since my choices may strike some readers as, not merely subjective, but perverse, figure 6 charts the length of titles as they appear in the bibliographical sources, without any intervention on my part. As a comparison with figure 1 shows, the general trend does not change much: the decline in length is slightly less dramatic (the median being quite higher for the first forty years, and then stabilizing around seven to eight words rather than six), but equally evident. 139 FIGURE 6. FIGURE 7. Additional source: 1700 –39: A Check List of English Prose Fiction, 1700 –1739, ed. William Harlin McBurney (Cambridge, Mass., 1960). The chart stops in 1836 because it seems very likely that Andrew Block’s bibliography significantly overstates the number of novels published after that date. Critical Inquiry / Autumn 2009 FIGURE 8. Additional source: English Prose Fiction, 1600 –1700: A Chronological Checklist, ed. Charles C. Mish (Charlottesville, Va., 1967). As long as only a few novels per year are published, the median length of titles keeps oscillating between ten and forty–fifty words; after the first rise of the 1720s and 1730s, however, it drops below twenty, and below ten during the late-eighteenth century take-off first noticed by Clifford Siskin. Earlier on, more ephemeral publishing spurts (1655– 60; the 1680s) had also coincided with a marked drop in the length of titles. five or ten per year; then, as soon as publishing took off in earnest, titles immediately shrank (fig. 8). By 1790, their “quantitative” transformation was virtually complete.5 The market expands, and titles contract. Figure 8 shows the temporal correlation of the two processes; a closer look at the market, adds a specific causal relationship. Because “market,” in the late eighteenth century— 5. The other type of title that disappeared in the late eighteenth century was the “titlecompilation,” like the 1772 The Egg, Or the Memoirs of Gregory Giddy, Esq: With the Lucubrations of Messrs. Francis Flimsy, Frederick Florid, and Ben Bombast. To which are Added Private Opinions of Patty Pout, Lucy Lucious, and Priscilla Positive. Also the Memoirs of a Right Honourable Puppy. Or Bon Ton Display’d: Together with Anecdotes of a Right Honourable Scoundrel. Conceived by a Celebrated Hen, and Laid Before the Public by a Famous Cock-feeder. Just as summaries drew the reader’s attention to the multiplicity of episodes along the diachronic axis, compilations foregrounded a “horizontal” proliferation of perspectives, characters, and locations—a naı̈ve, picaresque-like poetics of “variety” (to use a keyword of the age), at the very moment when novelistic structure was becoming tighter and more homogeneous. Out of step with the times, summaries and compilations became even more unimaginable in the nineteenth century. 141 142 Franco Moretti / Style, Inc. when readers almost never bought novels—really means: circulating libraries. Commercial enterprises, which disseminated the novel throughout Britain (and France, and Germany: one of Brecht’s early plays, In the Jungle of Cities, opens in one of these libraries), and whose catalogues have frequently survived until today. Catalogues: lists of titles. But not quite the same titles we find in Raven and Garside. In Sander’s library, in 1780s Derby, Capacity and Extent of the Human Understanding; Exemplified in the Extraordinary Case of Automathes: A Young Nobleman; who was Accidentally left in his Infancy, upon a desolate Island, and continued Nineteen Years in that solitary State, separate from all Human Society. A Narrative abounding with many surprising Occurrences, both Useful and Entertaining to the Reader, becomes: History of Automathes, A Young Nobleman. At Phorson’s, in Berwick, in 1790, Unfortunate Sensibility; or, the Life of Mrs L*****. Written by Herself. In a Series of Sentimental Letters. Dedicated to Mr. Yorick, in the Elysian Fields becomes Unfortunate Sensibility. At Sael’s, in the Strand, in 1793, Emmeline, the Orphan of the Castle becomes Emmeline. And so on. A coded message, in a market situation. And the key institution of the market takes the code, and compresses it: typically, to a proper name. Libraries couldn’t waste space on a catalogue page; they didn’t want any confusion between this novel and that; the spine of the book had only room for a few words anyway; and then, readers were getting used to novels, and needed less “guidance” from titles.6 So, the average length 6. If everything was really pushing towards shorter titles— observed Sam Bowles during a discussion of this paper—shouldn’t these be “rewarded” by the cultural ecosystem, and be on average more successful than other types? Yes, they should; and since James Raven has already identified which of the fourteen hundred novels published between 1770 and 1799 had been reprinted at least five times by 1829, I compared the length of these sixty-five titles to the median for their years, fully expecting them to be significantly shorter; see Raven, “Historical Introduction: The Novel Comes of Age,” in Garside et al., The English Novel, 1770 –1829: A Bibliographical Survey of Prose Fiction Published in the British Isles, 2 vols. (Oxford, 2000), 1:40. That, however, turned out not to be the case: thirty-two of the titles were indeed shorter than the median, but twenty-nine were longer (at times, much longer), and four were exactly the same length. What these results seem to suggest is that—although a crowded market does exert a strong negative pressure against long titles—it remains relatively neutral once a certain length has been reached: it prohibits at one end of the spectrum, but it does not prescribe at the opposite one. Comparative work in other European traditions should provide additional evidence on this matter; meanwhile, and more anecdotally, a look at some canonical British novelists is as inconclusive as the wider bibliographical investigation. If Edgeworth and Austen use much shorter titles than their contemporaries, and Fielding, Smollett, and Burney remain slightly below the median, Richardson and Radcliffe behave in an average way, while Scott and Galt and Dickens often enjoy playing with extremely long titles (which, by their time, are a quaintly obsolete choice): Tales of My Landlord, Collected and Arranged by Jedediah Cleishbotham, Schoolmaster and Parish-Clerk of Gandercleugh; The Annals of the Parish; or, The Chronicle of Critical Inquiry / Autumn 2009 decreased, long titles disappeared, and, at the opposite end of the spectrum, titles with only one, two, or three words multiplied rapidly (fig. 9): they were 5 percent in the 1740s and 50s, but by 1800 they were already around 20 –30 percent, and had completely traded places with the long titles which had been their predecessors (fig. 10). It’s the same thing that happened in advertising a hundred years later, when the detailed descriptions of the nineteenth century were replaced by the evocative oblique brevity of today’s ads; literally the same thing: title pages with long summaries of novels were often used as flyers, and pasted around to advertise a book. But short titles, as we will see, were not just better titles—they were better ads, too. Titles allow us to see a larger literary field, I said at the beginning of this article; and the first thing we see in this larger field, at this moment in history, is the force of the market: how its growth creates a major constraint on the presentation of novels. This of course doesn’t mean that all titles gave the same answer to the pressure of the market; but it does mean that they all had to face the same question: How could one shorten a message—without losing information? There was a lot of information in summaries: what happened to it? Was it— gone? reformulated? replaced by something else? I will return to this in a moment; now let me close this first section by acknowledging a limit of this article: I began by showing the average length of titles, but I then shifted to very long and very short titles—and I did so because these trends are much more dramatic than the slow decline of the average, and thus also much easier to talk about. Which is not exactly wrong (after all, those trends are real!), but, even aside from a question of completeness— of the seven thousand titles in the study, around nine hundred are long, sixteen hundred short, and forty-five hundred somewhere in between—the focus on extremes misses a decisive aspect of quantitative work: what really counts, here, are not a few major and rapid changes, but many small and slow ones. But the trouble is, we literary historians don’t really know how to think about what is frequent and small and slow; that’s what makes it so hard to study the literary field as a whole: Dalmailing; During the Ministry of the Rev. Micah Balwhidder. Written by himself; Dealings with the Firm of Dombey and Son, Wholesale, Retail and for Exportation. Now, if neither “successful” nor “canonical” novelists took the lead in shortening titles, then, inevitably, someone else must have done so: writers who—as we will see in the next section— were neither particularly popular, nor especially good. Perhaps, once the literary system had started moving in a certain direction, some developments were so inevitable that they didn’t require any special talent. Or perhaps—as suggested in footnote 12 below—in this case the key variable was not literary, but political. 143 9 . “On the twenty-seventh evening, ‘Nanine,’ by M. de Voltaire, was performed. ‘Nanine’? asked so-called critics when this piece first appeared in 1749. What sort of a title is that? What idea does that give us? Nothing more and nothing less than a title should. A title must be no bill of fare. The less it betrays of the contents, the better it is. It is better for both poet and spectator. The ancients rarely gave to their comedies any other than insignificant titles” (G. E. Lessing, Hamburg Dramaturgy, trans. Helen Zimmern [New York, 1962], p. 53). FIGURE FIGURE 10. Critical Inquiry / Autumn 2009 we must learn to find meaning in small changes and slow processes—and it’s difficult. Especially so, in the case of titles: which are by definition the most public part of a book, hence the most subject to censorship: what we find in titles reflects the “legitimate irradiation” of existing ideas, wrote Jean-Louis Flandrin, and it’s true, titles are so “respectable”; and again, how do you make respectable messages interesting?7 2 Very short titles: one, two, or three words. Where the question that interests me is, How can a couple of words stand in for hundreds of pages? What does it mean, that they should do so? For summaries, it’s clear: they are scaled-down versions of the whole story. Two words? So, I started looking at these short titles, and found three main clusters within the group: proper names (Octavia; George Barnwell), which make up around one-third of the total; the article-noun (The Steam-Boat; The Smuggler) and article-adjective-noun combinations (The Tuscan Vase; The Invisible Gentleman) just below 30 percent; and conceptual abstractions (Fatality; Enthusiasm not Religion) around 10 percent. “A large change in size inevitably carries with it a change of form,” wrote J. B. S. Haldane, and here one sees how right he was: a title with twenty words and one with two are not the same creature, one larger and one smaller; they are different animals altogether. Different styles. There is a “less is more” elegance to short titles—Persuasion; Emma; Mansfield Park—that was unthinkable in summaries; there, the aim was to squeeze as many things as possible into the front page—more is more, as it were—and if the title turned out to be a 7. Jean-Louis Flandrin, “Sentiments et civilization: Sondage au niveau des titres d’ouvrages,” Annales 20 (Sept.–Oct. 1965): 939; my trans. In a follow-up article I will indeed study the “average title” of these 110 years, taking as a starting point the formula in “or” (Pamela, or Virtue Rewarded; Vensenshon; or, Love’s Mazes; Manfrone; or, The One-Handed Monk). There are over two thousand such titles in the database, most of which use between three and fifteen words, thus occupying exactly the middle of the field. To get a sense of the morbid diffusion of or in eighteenth-century titles, let me just say that it is the fourth most frequent word of the database, following the, of, and a (and preceding and!); by contrast, in Elizabeth Gaskell’s North and South, or is the forty-fourth most frequent word; in Our Mutual Friend, the fifty-fifth. Aside from quantitative reasons, the formula in or is important because it codified the form of the “double” title, where the second (on the right of the or), is an explication of the first: Waverley, that is to say, events of sixty years ago; Pamela, a story in which virtue is rewarded. Here, we are clearly beyond the title as summary, though not quite yet in the world of Belinda or Persuasion: as if the or were a sort of afterthought—a hiccup: Maybe one word is not really enough for a title, let’s add something else, just to be sure. A compromise formation that coexisted first with summaries, then with short titles, the formula in or thus mediated between explanatory and intuitive strategies; but as readers became more comfortable with allusion, it lost its raison d’être. By 1900, it had become a thing of the past. 145 146 Franco Moretti / Style, Inc. FIGURE 11. mess, so be it: Robinson Crusoe’s mentioned an episode that doesn’t even appear in the novel (An Account how he was at last as strangely deliver’d by PYRATES: pyrates? what pyrates?)—it didn’t really matter. But a short title is a delicate structure, sensitive to every small change. Consider the articlenoun, and article-adjective-noun combinations: similar forms, similar semantic horizon—The Monk, 1796; The New Monk, 1798 —and so at first I assumed that the adjective wouldn’t change much: the monk and the new monk: big deal; the adjective would specify the noun, as adjectives do, but no more than that. And instead, it turns out that the adjective does not specify the semantic field; it transforms it. In the article-noun combination, half of the titles describing a social type evoke an exotic-transgressive field—The Fakeer, The Vampyre, The Fire-eater, The Pirate, The SabbathBreaker, The Spectre, The Rebel, The Epicurean, The Mussulman, The Libertine, The Parricide. . .—and only a small minority evokes the idea of the familiar (wife, brother, father, daughter, and so on). But when an adjective is added to the title, the ratio is exactly reversed (fig. 11): fakeers and libertines drop from 50 to 20 percent, while wives and daughters rise from 16 to 40 percent: The Unfashionable Wife, The Discarded Daughter, The Infidel Father, The Rival Brothers, The Posthumous Daughter, The False Friend, The Maniac Father, and so on. Without adjectives, we are in a world of adventures; with adjectives, in a destabilized domesticity. The adjective is the only change, but it changes everything. And of course, once you think about it, it makes sense: if all that is in the title is a noun, then that noun must guarantee an interesting story all by itself, and vampires and parri- Critical Inquiry / Autumn 2009 cides are a very good choice; but if an adjective is present, then even the most familiar figures can be estranged into infidel fathers and posthumous daughters. The adjective relocates narrative from substance to accident, as it were. And again, it makes sense: the adjective introduces predication within the title, and predication is the germ of storytelling. The wife is a stable quantity; the unfashionable wife is a question mark: why is she unfashionable? what does her husband think? her daughters? This is why short titles are so interesting: they are on the border: between two and three words lies the invisible barrier that separates storytelling from—something else, which we’ll see in a minute. Common nouns are frequent, in short titles, but proper names are even more frequent, especially at the turn of the century (fig. 12), when one title in twelve (1786 –90), then one in ten (1791–95), then almost one in seven (1796 –1800), consists of a proper name, and nothing else: Emily; Henry; Georgina. The growth of the market forced titles to become shorter, and, as we saw in circulating libraries’ catalogues, proper names were a great way to do so: one word, and a novel was immediately singled out from the rest.8 Singled out, by pointing to its protagonist; a choice which was not inevitable— of the “six masterpieces” of the Chinese canon, for instance, none was ever shortened to a proper name, because none had a name in the title to begin with— but which has been typical of European narrative since Greek and medieval times (probably, because in our tradition the central character has always played a greater role). And, of course, in the late eighteenth century, protagonist mostly means female protagonist (figs. 13–14): a woman’s name, and often just a first name (figs. 15–16): Lucy, Caroline, Belinda, Emma. . . Heroines who lack a last name: a very simple, very crude hint, typical of the British marriage plot (which reaches its apex in these decades): they lack a husband. But the wider field charted in figures 13 through 16 also shows how quickly the gender asymmetry was reversed in the 1820s and 1830s, and how frequent the heroine’s last name could actually be. In both cases, the main changes were almost certainly caused by shifts in the system of genres: the historical novel’s rise to prominence after 1815, for instance, with its mostly male heroes; or the marriage plot becoming embedded within genres like the bildungsroman and the industrial novel, where the heroine acquired a public life, which was promptly mirrored in titles like Jane Eyre or Mary Barton. Again, see how much can be done with how little, in short titles: one word, and the image of the heroine rotates 180 degrees: from private, to public. Short 8. Needless to say, different names—Evelina, Mary, and Moll; Edward, Tom, and Dick— evoked very different semantic associations: a great topic for further study. 147 1 2 . “If the Name . . . is a sign, it is a voluminous sign, a sign always pregnant and crammed full of meanings that no use can reduce or flatten. . . . It is immune from any kind of selective restriction, and the syntagm in which it is located is a matter of indifference to it. In a certain sense, the name is thus a semantic monstrosity” (Roland Barthes, “Proust et les noms,” Le Degré zero de l’écriture, suivi de nouveaux essays critiques [Paris, 1972], pp. 125–26; my trans.). FIGURE FIGURE 13. FIGURE 14. If one looks at the entire period in question, and at all titles (not only very short ones), men’s names actually outnumber women’s by about 10 percent, probably because more novelistic subgenres focused on a male protagonist, and many of them— most travel narratives, nautical tales, later “Irish” novels, war stories, Newgate novels, many satirical and farcical forms—were extremely unlikely to choose a female protagonist. That the Emma-type of title is the one that, however, immediately comes to mind when thinking of proper names in titles, is due to its exceptional power of allusion, and to the centrality of the marriage plot in the history of the English novel. FIGURE 15. 150 Franco Moretti / Style, Inc. FIGURE 16. As for the findings in figure 14, that female protagonists are more often indicated by their full name than by their first name is one of the surprises of this study. But it should also be remembered that the century under investigation witnessed the transition from the old aristocratic (and often French) form of the proper name—Rosa de Montmorien, Caroline of Lichtfield, Eloise de Montblanc—to its newer, “bourgeois” (and British) incarnation in Alice Lemington, Margaret Graham, or Rachel Ashburn. The golden age of the marriage plot (and of the type of title dominated by first names) seems to fall in between these two alternative ways of placing a female protagonist within a family structure. titles were a constraint imposed by the market, yes, but the constraint could also be a fantastic opportunity for the literary imagination: the art of allusion, of condensation: the title as trope, ultimately. Odd twist: the market promoting—style. The market expanded, titles contracted; by 1790, as we have seen, the issue of length had been settled, and didn’t really change for at least sixty years. But something else did change, between 1790 and 1850, and the last type of title I will discuss in this section—abstractions—will help us to understand what. Abstractions were usually a single word (Generosity, Indiscretion, Independence, Delusion), or a conceptual pair (Liberality and Prejudice; Jesuitism and Methodism), and although they were never very frequent, in the first quarter of the century, and especially in the 1820s, they were not insignificant, thanks largely to the tireless Barbara Hofland, who in the five years from 1823 to 1827 published, one after the other, Integrity, Decision, Patience, Moderation, Reflection, and Self-Denial. And as you read these titles you realize that abstractions here really mean— ethics. Nineteenth-century ethics; previously, abstractions had often emphasized moral violations (Disobedience, Indiscretion, Fatality, Retribution, False Gratitude, The Relapse, Critical Inquiry / Autumn 2009 Conscious Duplicity. . .), but after 1800 it is the construction of the ethical that is highlighted: Self-Control, Conduct, Discipline, Correction, Decision, Reformation. Morality not as purity, but as work: one takes one’s own self and transforms it, in a process that is both spiritual and pragmatic. Hofland’s Moderation, wrote the Monthly Review in 1825, is “fabricated . . . to . . . strongly enforce a precept in morals of great practical utility”;9 and that moral precept fabricated for practical utility is great—it’s really the dawn of Victorianism. When titles were summaries, they of course used verbs (The misfortunes in which this young woman has been cruelly involved, and so on); but once summaries disappear, so do verbs (aside from the occasional Says She to Her Neighbour, What?), and titles like Patience or Moderation are the logical endpoint of the process: titles that sound more and more like nominal sentences. A grammatical form that “places the utterance beyond all temporal or modal localization and beyond the subjectivity of the speaker,” wrote Émile Benveniste in his classic analysis of this type of sentence:10 beyond subjectivity, beyond temporal localization . . . the telos of nominal sentences is the abolition of contingency: they don’t describe a situation, Benveniste again, they posit an absolute.11 Self-Control; Patience; Integrity: they don’t describe a situation, not even in the minimal way of maniac fathers and unfashionable wives; they don’t allude to what happens in the novel, or to where and when it takes place; they posit an absolute, and that absolute is of course the meaning of the novel. This was the great historical achievement of abstractions: they made titles meaning-ful: nothing but meaning, as if the essence of the novel had been distilled and purified of all narrative contingency. And readers, faced with this type of title, have to change their expectations: the first thing they are told about the novel asks them to imagine, not so much a story, but the point of the story: the point of the story as a single, unifying concept. And this is important. That titles became short is interesting, yes, but in the end, so what? That by becoming short they adopted a signifying strategy that made readers look for a unity in the narrative structure—this is a perceptual shift which has persisted for two hundred years. And mediocre conservative writers did more to make it happen than anyone else.12 9. Review of Moderation by Hofland, Monthly Review 108 (Sept. 1825): 88. 10. Émile Benveniste, “The Nominal Sentence,” Problems in General Linguistics, trans. Mary Elizabeth Meek (1966; Coral Gables, Fla., 1971), p. 138. 11. See ibid., p. 142. 12. Why them? Perhaps, because there was much in common between the conservative reaction to the French Revolution (for which basic social values had to be preserved from historical transformation), and the type of titles I am discussing here (for which fundamental ethical absolutes had to be freed from narrative relativization). 151 152 Franco Moretti / Style, Inc. I have discussed abstractions next to proper names, because they both make for very short titles; but, clearly, their relationship to plot is completely different: proper names are a part of the story, whereas abstractions are an interpretation of it. It would be tempting to say that names have a metonymic relationship to the novel, and abstractions a metaphoric one; but if characters’ names (and the—rarer—place names like Minerva Castle or Mansfield Park) are indeed metonymies of the plot, abstractions are not quite metaphors,13 and in fact it is curious how few metaphors are there, in these seven thousand titles.14 By the end of the century they are everywhere (The Belly of Paris; The Doll; Ghosts; The Octopus; Heart of Darkness; The Beast in the Jungle), so they must have taken root sometime in the third quarter of the nineteenth century, and the glimpses one gets suggest a lot of hesitation on the part of writers: Gaskell shifting at the last minute from Margaret Hale to North and South (proper name to metaphor); Dickens doing the opposite, from Nobody’s Fault to Little Dorrit. Announcing a story with a metaphor must have seemed strange—and it is strange: if abstractions are removed from the plot, then metaphors are twice removed: interpretations that require an interpretation, as it were. But it is precisely this “difficulty” of metaphors that holds the secret of the title-asad. Eighteenth-century summaries told readers a lot of things about the novel, yes; but they never really engaged their intelligence. And instead, by puzzling and challenging readers, metaphors induced them to take an active interest in the novel from the very first word. If you are trying to sell a product, that’s exactly what you want. Summaries, adjectives, proper names, nominal sentences, metonymies, metaphors. In a minute I will turn to articles (and am thinking of sections on conjunctions and participles). This is a quantitative study: but its units are linguistic and rhetorical. And the reason is simple: for me, formal analysis is the great accomplishment of literary study, and is therefore also what any new approach— quantitative, digital, evolutionary, whatever— must prove itself against: prove that it can do formal analysis, better than 13. Nor are they allegories or personifications: Hofland’s Moderation is not meant to come alive and be part of a story like its homonym in the 1669 History of Moderation; or, The Life, Death and Resurrection of Moderation: together with her Nativity, Country, Pedigree, Kindred, Character, Friends, and also her Enemies. 14. It’s only at the very end of the period that they begin to appear: Loss and Gain (1848), Rough and Smooth (1849), Shadows and Sunshine, Flies in Amber, and The Swan’s Egg (1850). In general, if the years between 1790 and 1830 see the establishment of metonymies and abstractions, no further novelties seem to emerge between 1830 and 1850: instead of looking for new forms of brevity, writers seem to devote their best energies to the second title, as if that were the key to the problem: Helen Halsey. A Tale of the Borders. A Romance of Deep Interest; The Slave Captain; A Legend of Liverpool; Goals and Guerdons: Or, The chronicles of a life. By a very old lady; Rebecca and Rowena. A Romance Upon Romance. Critical Inquiry / Autumn 2009 we already do. Or at least: equally well, in a different key. Otherwise, what is the point? 3 As the market expands, titles contract; as they do that, they learn to compress meaning; and as they do that, they develop special “signals” to place books in the right market niche. “Had I, for example, announced in my frontispiece, ‘Waverley, a Tale of other Days,’ must not every novelreader have anticipated a castle scarce less than that of Udolpho. . . . A ‘Sentimental Tale’ would . . . have been a sufficient presage of a heroine with a profusion of auburn hair. . . . ‘A Tale of the Times’ [would] have demanded from me a dashing sketch of the fashionable world.”15 Tale of other Days, Sentimental Tale, Tale of the Times: that these words would make readers think of specific genres is of course true—and trivial: it’s obvious. The code may be in the market, but it remains transparent. And instead, the interesting cases are the opaque ones: where the signal works, and we somehow know what kind of a novel we have in our hands, but we don’t know why we know it, because it is all conveyed by traits that escape our attention; “subliminal,” as we used to say. Let me illustrate this point with two genres—the so-called anti-Jacobin and New Woman novels—that are separated by a hundred years:16 two explicitly ideological genres, which rely heavily on contemporary politics, and whose titles have thus a lot in common— except for one detail. Among anti-Jacobin titles, 36 percent begin with the definite article (The Banished Man, The Medallion, The Parisian, The Democrat) and 3 percent with the indefinite; a result which is perfectly aligned with the rest of the field, since at the time the overall frequencies are thirty-eight and two.17 New Woman titles, no; the definite article is obviously still present, in 24 percent of the cases, but the use of the indefinite leaps from 2, or 3, to 30 percent of the cases (fig. 17). Now, this is odd, not only because it is completely out of scale with anything else I have found, but because in many other ways the conventions of the two genres are quite similar. The democrat; A bluestocking: two well-known figures of the contemporary political scene; why is the 15. Scott, Waverley, pp. 33, 34. 16. See the bibliographies included in M. O. Grenby, The Anti-Jacobin Novel: British Convervatism and the French Revolution (Cambridge, 2001), and Ann L. Ardis, New Women, New Novels: Feminism and Early Modernism (New Brunswick, N.J., 1990). 17. In the New York Times best-seller list of November 2008, 38 percent of the titles began with the definite article, and 6 percent with the indefinite: not that different from two centuries earlier. 153 154 Franco Moretti / Style, Inc. FIGURE 17. article different? The infidel father; A hard woman; the same grammar, the same dissonance between adjective and noun; why is the article different? What do the articles do, that they need to be different? An essay by Harald Weinrich offers an answer; for Weinrich, the starting point to understand linguistic categories is always the text, and, since all texts are linear, “there are two main directions in which the attention of the listener/reader may be directed”: backwards, or forwards: backwards, towards what we already know from the text, and forwards, towards what we don’t.18 And the simplest way to alert the reader’s attention is—articles: the definite article announcing a noun as something that we already know (thus directing our attention backwards); and the indefinite suggesting the opposite: Take heed, here comes something that you haven’t encountered yet. The first time the wolf appears in Little Red Riding Hood it is a wolf; afterwards, the wolf, forever. So: A Girton Girl, A Hard Woman, A Mummer’s Wife, A Domestic Experiment, A Daughter of Today, A Semi-detached Marriage: what the article says is that we are encountering all these figures for the first time; we think we know what daughters and wives are, but we actually don’t, and must understand them afresh. The article announces the novel as a challenge to received knowledge. And instead, the democrat, the Par18. Harald Weinrich, “The Textual Function of the French Article,” in Literary Style: A Symposium, trans. Seymour Chatman et al., ed. Chatman (Oxford, 1971), p. 226. FIGURE 18. FIGURE 19. 156 Franco Moretti / Style, Inc. isian, the infidel father. We know these people! Anti-Jacobin titles don’t want to change received ideas, they want to use them: the French Revolution has multiplied your enemies— beware. Here is a modest example of what quantitative stylistics could do: take those units of language that are so frequent that we hardly notice them, and show how powerfully they contribute to the construction of meaning.19 Which is also the point of my last example: a formula that, at first sight, looks as flat and uninspiring as could be: The Duchess of York, The Novice of Corpus Domini, The Heir of Montgomery Castle: let’s call it the x of y. As figure 18 shows, the formula has always been quite frequent in titles, never dropping below 10 percent of the total; but around 1800 its frequency increases, and if we look more closely at those decades, we find that the surge does not occur evenly everywhere, but is almost entirely concentrated in a single genre, which is the gothic. There, the x of y appears three times more often than in the rest of the corpus (fig. 19), which is too big a difference to be the product of chance, especially since something very similar also occurs within the gothic itself: we all know that the word castle was the shibboleth of the genre’s imagination, from The Castle of Otranto onwards; well, in gothic titles the x of y occurs three times more often than castle. But why? Castles in gothic titles, it makes sense. The x of y? Here semantics helps; if we look at the x in the formula, we find that romance appears in 7 percent of the cases (The Romance of the Pyrenees), a cluster of genre indicators like mysteries, horrors, secrets, adventures in 13 percent (The Horrors of Oakendale Abbey), personal nouns in 34 percent (Emmeline, or the Orphan of the Castle), and space nouns in 41 percent of the total (fig. 20): from The Castle of Otranto in 1764 to The Mines of Wielitzka and The Rock of Glotzden a half century later. So, in three fourths of the cases the x of y specifies an x that is either a person or a space. And when we move from the subject of the formula to its predicate—from the x to the y—what we find is so striking that I don’t even need a graph to point it out: The Romance of the Pyrenees, The Horrors of Oakendale Abbey, The Orphan of the Castle, The Castle of Otranto, The Mines of Wielitzka, The Rock of Glotzden . . . in 82 percent of the cases, the y is a space: a person defined by a space, or, most frequent of all, a space defined by another space. The Castle of Otranto: a spatial noun specified by a place name. There are many intriguing traits to gothic titles—this is the genre that 19. The model here remains John Burrows’s analysis of Austen’s characters’ styles in Computation into Criticism (Oxford, 1987); that he did it twenty years ago, without the help of today’s technology, puts us all to shame. Critical Inquiry / Autumn 2009 FIGURE 20. discovers that readers like villains, for instance, and shamelessly parades them in titles— but space is really the cornerstone of the convention: place names are much more frequent than human proper names; spatial nouns like castle, abbey, forest, cave, and so on show up in 50 percent of the cases; and there are even other kinds of geographical signals, like A Sicilian Romance or The Danish Massacre. Nothing is as typical of gothic titles as this fixation with space; and of course this is true not just of titles, but of gothic novels: where space is dark, labyrinthine, cold; it imprisons, it terrifies, it kills. The x of y takes this power of space, and activates it at two scales at once: human, and geographical. The Castle of Otranto: there is a building; there is a town; they are both gothic. Escape from the castle, you’re still in southern Italy. There is no way out. “Literature is the fragment of fragments,” wrote Goethe in Wilhelm Meister’s Journeyman Years, or the Renunciants, the great sad novel of his old age: “the least part of all that ever happened and was spoken was written down, and of what was written only the least part has survived.”20 “Of this history we possess the last volume alone,” wrote Darwin in The Origin of Species, “of this volume, only here and there a short chapter has 20. Johann Wolfgang von Goethe, Wilhelm Meister Journeyman’s Years, or the Renunciants, trans. Krishna Winston, ed. Jane K. Brown, vol. 10 of Goethe’s Collected Works (New York, 1989), p. 302. 157 158 Franco Moretti / Style, Inc. been preserved; and of each page, only here and there a few lines.”21 There are differences, of course, between the history of nature and that of culture: the “fossils” of literary evolution are often not lost, but carefully preserved in some great library, like most of those seven thousand novels whose titles I have discussed here; but for the purposes of our knowledge, it’s as if they too had crumbled into dust, because we have never really tried to read the entire volume of the literary past. Studying titles is a small step in that direction. 21. Charles Darwin, On the Origin of Species (Cambridge, Mass., 1964), pp. 310 –11.