Workshop

Transcrição

Workshop
Sechstes Treffen des CRUS-Doktoratsprogramms
Allgemeine und Vergleichende Literaturwissenschaft
Sixième rencontre du programme doctoral CRUS en
Littérature générale et comparée
Perspektiven der Allgemeinen und Vergleichenden Literaturwissenschaft:
Vorstellung aktueller Forschungsprojekte
Perspectives de la Littérature générale et comparée :
présentation des projets actuels
5.–7.3.2015, Tagungszentrum Boldern
Workshop: Distant and Close Reading – Reader
Peter Szondi: „Über philologische Erkenntnis“ [1967]
Fotis Jannidis: „Computerphilologie“ [2007]
Franco Moretti: „Style, Inc. Reflections on Seven Thousand Titles (British Novels, 1740–1850)“ [2009]
Handbuch
Literatu rwissenschaft
Herausgegeben von Thomas Anz
Band 2
Methoden und Theorien
1.2 Computerphilologie
Der Begriff .Computerphilologie< hat sich seit Anfang der 1990er Jahre als Sammelbegriff für die
Einsatzmöglichkeiten des Computers in der literaturwissenschaft etabliert. Zwei Medienrevolutionen haben die Geschichte der Computerphilologie
bestimmt: Erfindung und Verbreitung des Computers (Digitalisierung) und das Internet (Vernetzung). Die erste Phase der Computerphilologie
reicht von den Anfängen 1949 bis zur Mitte der
1980er und ist geprägt von den verwendeten Großrechnern. Die zweite Phase reicht von Mitte der
1980er Jahre bis Ende der 1990er Jahre und ist
durch die allgemeine Verbreitung des Personal
Computers und der CD als Speichermedium bestimmt. Die dritte Phase, die in den letzten Jahren
der 1990er begonnen hat, steht unter dem Zeichen
der weltweiten Vernetzung und der ersten Experimente mit Netzeffekten.6S Schon Roberto Busa, der
1949 mit seiner Arbeit an der computergestützten
Erstellung einer Konkordanz zu den Werken Thomas von Aquins begann - eine Arbeit, die erst Jahrzehnte später abgeschlossen wurde -, war auf typische Probleme der Textbearbeitung am Computer gestoßen: Wie kann man Zeichen kodieren, die
65 Eine andere Einteilung schlägt der materialreiche Artikel von Susan Hockey vor, die viele der Entwicldun·
gen selbst erlebt oder sogar beeinflusst hat; vgl. Susan
Hockey: The History of Humanities Computing. In:
Schreibman/Siernens/Unsworth 2004, 3-19.
im Zeichensatz des Computers nicht vorhanden
sind, und wie kann man nach Worten unabhängig
von der konkreten Wortform suchen. 66
Der Terminus .Computerphilologie< ist in den
1980er Jahren als AnalogbUdung zum etablierte ren
Begriff .Computerlinguistik< eingeführt worden,
der damals noch die computergestützte Analyse
und Verarbeitung von gesprochener Sprache und
den inzwischen ausdifferenzierten Bereich der Korpuslinguistik umfasste. Zu den wichtigsten Meilensteinen der Geschichte der Computer philologie gehören das Erscheinen von leistungsfähigen Programmen, die es auch dem nichtprogrammierenden
Philologen ermöglichten, mit digitalen Texten zu
arbeiten, z. B. die Sammlung von Textbearbeitungsund Publikationswerkzeugen TUSTEP (Tübinger
System von Textverarbeitungs-Programmen), die
seit den 1970er Jahren bis nach 2000 immer weiter
entwickelt worden ist, oder TACT (Text Analysis
Computing Tools), ein Texlanalyse-Programm, das
Ende der 1980er Jahre vor allem von John Bradley
entwickelt wurde.61
66 Vgl. Roberto Busa: The Annals of Humanities Cornputing. The Index Thornisticus. In: Computers and the
Humanities 14 (1980), 83-90.
67 Vgl. Wilhelrn Ou: Edition und Datenverarbeitung. In:
Herbert Kraft (Hg.): EditionsplJilologie. Darrnstadt
1990, 59-70; lohn Bradley: TACT Design. In: CCH
Workillg Papers I. Ig. (1991). Vgl. auch hup:/lwww.
chass.utoronto.ca/epc/chwp/bradleyl (24.4.2007).
Wichtige Momente der Entwicklung waren auch
die institutionellen Veränderungen: 1970 gab es in
Cambridge die erste Fachkonferenz, der regelmäßig weitere folgten. 1973 wurde die Association Jor
Literary and Linguistic Computing gegründet, 1978
folgte in den USA die Association Jor Computers
and the Humanities; die beiden Fachgesellschaften
haben bald gemeinsam die Organisation der Konferenzen übernommen und operieren heute unter
dem gemeinsamen Dach der Digital Humanities.68
1987 richtete Willard McCarty die E-Mail-Diskussionsliste HUMANIST ein, die er auch seitdem moderiert. Eine Reihe von disziplinären Selbsterforschungen hat sicherlich zur Klärung beigetragen,
was unter >Computerphilologie< genau zu verstehen ist. 69 Ebenso wichtig waren einige Bücher: Hockey hat 1980 eine erste Einführung vorgelegt und
2000 erneut einen souveränen Überblick über
wichtige Aspekte publiziert (vg!. Hockey 1980 und
2000). Seit 1999 erscheint in Deutschland das Jahrbuch Jür Computerphilologie im Druck und online.
Mit dem Companion to Digital Humanities ist 2004
ein erster systematischer Gesamtüberblick erschienen (vg!. Schreibman/Siemens/Unsworth 2004).
Einer der wichtigsten Texte ist jedoch vor allem im
Internet verbreitet worden: 1987 traf sich erstmals
eine Arbeitsgruppe von Philologen, die mit den
Guidelines der Text Encoding Initiative (SperbergMcQueen/Burnard 2005) wohl eines der einflussreichsten Dokumente der Computerphilologie und
des Humanities Computing insgesamt vorgelegt
hat.
68 Vgl. The Alliance of Digital Humanities Organizations
unter http://digitalhumanities.orgl (24.4.2007). die
viele der internationalen Aktivitäten zusammenführt.
69 Vgl. Fotis Jannidis: Was ist Computerphilologie? In:
Jahrbuch für Computerphilologie 1. Jg. (1999). 39-60;
Jan Christoph Meister: Projekt Computerphilologie.
Ober Geschichte, Verfahren und Theorie rechnergestützter Literaturwissenschaft. In: Harro Segeberg/Simone Winko (Hg.): Digitalität und Literalität. Zur Zukunft der Literatur. München 2005, 315-341 sowie die
einschlägigen Aufsätze im Jahrbuch für Computerphilologie 4. Jg. (2002).
Abstraktion
Das Wissen über den Umgang mit dem Computer
scheint von geradezu sprichwörtlicher Vergänglichkeit, und die Aussagen über Kennzahlen der
Hardware oder über die Verwendung spezifischer
Software veralten wirklich besonders schnell. Tatsächlich aber zeigt ein zweiter Blick, dass es Wissen
gibt, das sehr viel widerständiger gegen den Lauf
der Zeit ist, etwa die Kenntnis der Tatsache, dass im
Computer Informationen langfristig in Dateien gespeichert werden und man diese öffnen muss, wenn
man an die Informationen gelangen will. Dieses
Wissen ist keineswegs resistent gegen Entwicklungen, es verändert sich nur sehr viel langsamer. Ein
wesentlicher Bestandteil aller wissenschaftlichen
Beschäftigung mit dem Computer ist die Suche
nach den dauerhaften Prinzipien der Computerarbeit. Allerdings ist oft nur rückblickend zu ermitteln, welches Wissen langfristig stabil bleibt und
welches schneller verfällt,7° Die Informatik hat für
die Speicherung und Manipulation von Daten eine
Reihe von abstrakten Prinzipien beschrieben, die
zwar nicht konstant bleiben, aber eine relativ langsame Entwicklungsgeschwindigkeit aufweisen und
gleichzeitig bei der Lösung von Problemen erprobte
Werkzeuge zur Verfügung stellen. Analog dazu ist
es die Aufgabe der Computerphilologie, solche
dauerhaften Prinzipien zu ermitteln, zusammenzustellen und zu tradieren.
Ein wichtiger Schlüssel zu dauerhafteren Prinzipien des computerphilologischen Wissens ist
Abstraktion. Abstrahiert werden muss von den
kontingenten Elementen, um die stabileren, dauerhafteren Elemente zu ermitteln, doch, wie schon
erwähnt, ist diese Unterscheidung keineswegs einfach zu treffen. Andererseits wird der Computer
auch in den Geisteswissenschaften inzwischen einige Jahrzehnte lang eingesetzt, und ein Blick auf
die Entwicklung dieses Wissens macht die Arbeit
heute leichter als noch vor zehn Jahren.
Die automatisierte oder computergestützte inhaltliche und stilistische Textanalyse nutzt statistische Methoden, das Suchen in oder das Sortieren
70 Vgl. Thomas A. Standish: Data Structures in Java.
Reading u.a 1998,6.
von Texten verwendet ebenso wie die Konvertierung elektronischer Texte gut erforschte Programmier-Algorithmen. Größere Teile der Computerphilologie lassen sich jedoch nicht so formalisiert
erfassen, etwa die Frage, welche Aspekte eines
Textes in welcher Weise ausgezeichnet werden
müssen; dennoch handelt es sich dabei um sprachlich formulierbare Regeln oder etwas vorsichtiger
ausgedrückt, um Regelmäßigkeiten, und so kann
man das philologische Textauszeichnungssystem
der TEl auch als Versuch verstehen, das zentrale
Wissen über die literaturwissenschaftliche und linguistische Textauszeichnung zu sammeln. Die Erfassung dieser Regelmäßigkeiten in so konziser
Weise, dass man über sie diskutieren und sie eventuell auch falsifizieren kann, ist ein besonderes Ziel
des neuen Teilfachs.
Neben der Suche nach den computerphilologischen Prinzipien bildet die Auseinandersetzung
mit den einschlägigen Standards einen weiteren
Schlüssel zu beständigerem Wissen. Mit >Standard<
ist in diesem Kontext die Verabredung gemeint,
dass etwas so und nicht anders sein soll. In der innovationsgetriebenen Welt der Informationstechnologien müssen ständig neue Verabredungen getroffen werden, die das Zusammenspiel von neuer
und alter Hard- und Software gewährleisten. Standards werden vor allem durch zwei Instanzen gesetzt: durch Firmen bzw. andere Institutionen in
einem dezisionistischen Akt (man spricht dann etwas verharmlosend von Industrie- oder de factoStandard) oder durch unabhängige Standardisierungskomitees, zum Beispiel dasjenige, das für den
internationalen ISO Standard verantwortlich ist.
Inzwischen hat sich die Einsicht durchgesetzt, dass
es ökonomisch unsinnig ist. die kostenintensiv erstellten Daten proprietären Standards anzuvertrauen, und es gibt eine ganze Reihe von Institutionen für offene Standards; die wichtigste davon ist
das World Wide Web Consortium, das u. a. die Familie von Standards um die Textauszeichnungssprache XML entwickelt hat und betreut?'
71 Vgl. W3C hup:/Iwww.w3c.org(24.4.2007).
Erstellung digitaler Texte
Der elektronische Text ist Grundlage fast aller computerphilologischen Tätigkeiten. Anfangs war der
digitale Text lediglich eine Stufe auf dem Weg zur
Erstellung eines Drucktextes, inzwischen ist er auch
Endprodukt in Form von elektronischen Editionen
und fachspezifischen Informationssystemen oder
literarischen Hypertexten. Unterschieden wird üblicherweise zwischen der Digitalisierung eines bereits vorhandenen Drucktextes (Retrodigitalisierung) und der Erstellung eines neuen digitalen
Textes (born digital), etwa als digitale Edition einer
Handschrift oder als Hyperfiction. Um einen Text
oder einen Informationsbestand zu digitalisieren.
müssen die Informationen, die im analogen Medium in den Buchstaben und den Satzzeichen, aber
auch in der Typografie und dem Layout kodiert
sind, auf das digitale Medium übertragen werden.
Analoger Text kann im digitalen Medium als Bild
oder als Folge von alphanumerischen Zeichen
(Buchstaben, Zahlen, Satzzeichen usw.) gespeichert
werden. Bilder werden im Computer prinzipiell anders kodiert als alphanumerische Zeichen. Letztere
werden mittels eines Zahlenschlüssels kodiert, der
vom verwendeten Zeichensatz, heute zumeist Unicode bzw. ISO/IEC 10646, abhängig ist. 72 Bilder dagegen werden in Bildpunkten mit Angaben zu Farben und Helligkeit abgespeichert. Da aber lediglich
in solchen Texten gesucht werden kann, die als alphanumerische Zeichen gespeichert wurden, und
Suchen die wesentliche Voraussetzung für alle fortgeschritteneren Verarbeitungstechniken darstellt,
hat sich diese Form der Digitalisierung für Belange
des Humanities Computing als Standard durchgesetzt.
Speichert man Text als Zeichen folge digital,
dann müssen alle Informationen, die über die bloße
Buchstabeninformation hinausgehen, gesondert
gespeichert werden. Bildet also im analogen Medium des Drucks etwa der Buchstabe >E< und sein
Layout als Teil der Überschrift> Erstellung elektronischer Texte< immer eine Einheit von semantischer und typografischer Information, dann werden diese Informationen in digitalen Texten not-
72 Vgl. hUp:/Iwww.unicode.org(24.4.2007).
Textkritik und Textbearbeitunq
wcndigerweise getrennt behandelt. Hierin liegt eine
grundsätzliche medien bedingte Veränderung in
der Art und Weise. wie Schrift gespeichert wird.
Eine der Folgen dieser medientedmischen Innovation besteht darin, dass die Freiheit, Text und Präsenhltion unabhängig voneinander handhaben zu
können, in zahlreichen Anwendungen auch genutzt
wird, um unterschiedliche Sichten auf den gleichen
Text zu ermöglichen.
Der übliche Produktionsweg bei der Digitalisierung eines gedruckt vorliegenden Werks besteht im
Erfassen des Textes und im Anreichern des Textes
mit zusätzlichen Informationen. Diese Schritte
sind, das sei gleich vorweggeschickt, nur analytisch
getrennt, in der Praxis aber oft Teil eines Arbeitsgangs.
Für die Texterfassung haben sich zwei Wege
etabliert: Das manuelle Erfassen und das Scannen
mit anschließender automatisierter Zeichenerkennung. Vorteil der manuellen Eingabe ist. dass bereits während der Eingabe der Text (je nach Vorlage) mit basalen Auszeichnungen versehen werden kann und außerdem eine relativ hohe
Fehlerfreiheit gewährleistet ist. Nachteil ist der Aufwand an Arbeitskraft. Für sehr aufwendige Proiekte
wird der Text unabhängig zweimal eingegeben. In
einem anschließenden Vergleichslauf mittels Computer werden dann alle Differenzen herausgeflltert,
da sie wahrscheinlich Fehler anzeigen.'3
Das Scannen eines Textes erzeugt ein digitales
Bild. Das gescannte Bild muss also für die Weiterverarbeitung erst mittels eines OCR-Programms
(Optical eilt/raeter Recogllitioll) in eine Folge von
alphanumerischen Zeichen umgewandelt werden.
Problematisch ist die immer noch relativ große
Fehlerdichte von gescannten Texten, die eine aufwendige manuelle Nachbearbeitung erfordert. Die
Retrodigitalisierung deutschsprachiger Druckkultur sieht sich außerdem mit der außergewöhnlich
breiten Varianz von Frakturschriften konfrolltiert,
in denen die meisten Texte vor 1930 gedruckt wurden und deren Erfassung mittels OCR ein besonde73 Vt\1. Kurt
Burch!\'era Hildenhrandt:
Das digitale .Deutsche Wörterbuch· der BrüLkr
Grimm. Vom Buchformat zur elektronhchen Publika tion. In: ßil>fiotlick Lllld lVisst!lIsd'clji 36. Jg. (2003) .
res Problem darstellt, so dass die manuelle Erfassung bislang die ökonomischere Variante ist.
Die Textauszeichnung (lIlarkllpl. also das Eintragen \'on ergiinzenden Angaben in den Text, kann
teilweise direkt oder indirekt bei der Texterfassung
oder automatisch aufgrund von vorhandenen
Texteigenschaften erfolgen." Wenn es skh jedoch
nicht um stark strukturierte Texte wie Wörterbücher oder Lexika handelt, dann wird eine mehr
oder weniger aufwendige Bearbeitung durch einen
Philologen notwendig sein, der Anmerkungen einträgt. verschiedene Textteile mittels Hyperlinks
verbindet oder einen kritischen Apparat erstellt.
Digitale Editionen werden zumeist in Autorensystemen oder mit Textbearbeitungsprogrammen
erstellt, die einzelne Arbeitsschritte unterstützen, zum Beispiel die Kollationierung mehrerer
Texte. Zur Publikation wird ein elektronischer Text
zumeist noch dem Programm angepasst. mit
dem man den Text lesen und auch in ihm suchen
kann.
Wie oben ausgeführt müssen alle Angaben im
Text zusätzlich zu den alphanumerischen Zeichen
eingebracht werden, sei es nun die Information.
dass ein Wort fett zu drucken oder dass es als Hyperlink darzustellen ist. Anfangs geschah dies immer nur auf eine Weise, die lediglich mit dem Programm, das zur Ausgabe vorgesehen war, auch dargestellt werden konnte. doch diese enge Koppelung
von Software und Textauszeichnung erwies sich
aufgrund der schnellen Produktzyklen von Anwendungssoftware und Betriebssystemen bald als problematisch. AufSerdem stellte man fest, dass die
Koppelung von Layoutinlormationen und semantischen Informationen. die durch die m edialen Gegebenheiten des Drucktextes so selbstverständlich
erschien, im digitalen Medium problematisch ist.
Anstatt einer Wortfolge die typografische Intormation 'Schriftgröße 14 pt. zuzuordnen, um damit
dem Leser mitzuteilen. dass dies eine Überschrift
ist. wird im Text die Information eingetragen. dass
die vVortfolge eine Überschrift ist und dann - unabhängig \"om Text - die Intormation hinzugefügt.
dass Überschriften dieser Art z. B. in Schriftgröße
14 pt wiederzugeben sind. Ein Vorteil dieser Vorgehensweise ist es. dass man nun durch eine einfache
Änderung alle Überschriften anders gestalten kann.
Außerdem kann man, etwa für ein Inhaltsverzeichnis, alle Überschriften aus dem Text extrahieren.
Diese Unterscheidung zwischen typografischem
und strukturellem Markup (vgl. Hockey 2000, 25)
liegt allen modernen Textverarbeitungsprogrammen. vor allem aber auch der Konzeption moderner
Auszeichnungssprachen, zugrunde. Heute unterscheidet man üblicherweise zwischen vier Formen
des Markup:
• Strukturelle Auszeichnung: Kodiert werden
strukturelle oder logische Merkmale wie Kapitel,
Strophen, Überschriften usw.
• Präsentationale Auszeichnung: Kodiert werden
typografische Aspekte eines Textes, z. B. Schriftart und -größe, Ausrichtung oder Zeilenabstand.
• Referenzielle Auszeichnung: Alle Verknüpfungsinformationen in Form von Links, z. ß. zu Anmerkungen, Bildern oder anderen Dokumenten.
• Funktionale Auszeichnung: Kodierte Segmente
mit Anweisungen an den Parser oder ein anderes
Programm, mit dem bestimmte Aktionen ausgelöst werden, z. B. Skriptanweisungen.";
Als wesentliches Problem für alle digitalen Texte
hat sich die langfristige Speicherung eines elektronischen Textes erwiesen: Die meisten kommerziell
vertriebenen Editionen sind aufgrund ihrer proprietären Auszeichnung - also einer Auszeichnung,
die von einer Firma nur für die Verarbeitung mit
ihren eigenen Programmen entwickelt wurde - eng
an das jeweilige Darstellungs- und Retrievalprogramm und damit an dessen Lebensdauer gekoppelt. Eine weitgehend betriebssystem- und softwareunabhängige Kodierung, die elektronischen
Texten eine mit Drucktexten vergleichbare Lebensdauer ermöglichen soll. kann mit dem philologischen Textauszeichnungssystem der Text Ellcodillg Illiti(/til'" (TEl) erreicht werden. TEl setzt auf
dem internationalen Standard für Auszeichnungs-
74 Zur 'lextauszeichnung vg l. Hockt·y 20(1) lind Allen
Renear: Text Encoding. In: Schrdbm.ln/Siemensi
l:n;\\"orth 2004.
75 Vgl. Derek Walker: Taking Snapshot; of the Web with
a TEl Camera. In: COnlPlltt'l"S IIl1d thr HIIIIHlllities 33.
Jg., 112 (19991. 1115-192.
systeme XML (eXtellsible Markllp LlIIIgllllge)"'" auf.
XML ist selbst keine Auszeichnungssprache, \'ielmehr ein Regelwerk, wie Auszeichnungssprachen
definiert werden können, zum Beispiel XHTML
oder eben TEl. Der Vorteil von XML ist, dass jeder
Text, der mit einem so definierten System ausgezeichnet wurde, mit allen XML-kontormen Programmen weiterverarbeitet werden kann . TET ermöglicht die Notierung gattungsspezifischer Merkmale von Prosa, Lyrik und Drama sowie die
Auszeichnung von Primärquellen und kritischen
Editionen sowie von Transkriptionen gesprochener
Sprache, von Wörterbüchern und terminologischen
Datenbanken (vgl. Sperberg-McQueen/Burnard
2005)." Der Vorteil von TEl besteht vor allem
darin, dass Philologen, die eine Edition konservieren möchten, einen Standard verwenden können,
der seit fast zwanzig lahren in Entwicklung und Erprobung ist und der aus einer weltweiten Koopera tion von Fachwissenschaftlern hervorgegangen ist.
Er wird inzwischen in zahlreichen, teilweise st!hr
umfangreichen Editionsprojekten eingesetzt, was
auch bedeutet, dass man im Falle von Problemen
eine große Zahl möglicher Ansprechpartner hat.
TEl wird inzwischen wie ein Open Suurce-Projekt
geführt. d. h. alle Handbücher und Schemadateien
sind frei verfügbar und auch die Überarbeitung ist
öffentlich dokumentiert.'"
TET hat jedoch auch einige Kachteile: Es bietet
bislang kaum Möglichkeiten, die materialen Aspekte von Texten, z. B. die Gestaltung von Büchern
oder die Topografie einer Handschrift präzise zu
beschreiben. Die klare Trennung von Typografie
bzw. Layout und Semantik, die im Design von XMI.
angestrebt wurde, ist nicht in allen Fällen zu verwirklichen und noch nicht einmal immer wünschenswert. Allerdings gibt es inzwischen einschlägige Arbeitsgruppen in der TEl. und es ist zu
76 Zu XML \'gl. eXtensible Markup Language (XMLI l.n
(Fourth Edition). W3C Recommendation 16 August
2006. edited in picKe 29 September 2006. http://w,,"\\".
w3.orglTR/.2006/ REC-xml- 20U6011161 (24 .4.l007).
77 Zum Einsatz der TEl -Richtlinien bei Editioll.sprojekten vgl. Robinson 1994 und Fotis Jannidh: Wider da,
Altern elektronischer Texte. Philologbdlt' Tcxtauszeichnung mit TEl. In: cditio 11. Jg. (19971.152 -177.
71\ \'gl. http://www.tei-c.org (14.5.2007).
Jede Auszeichnung ist eine Interpretation des
erwarten, dass entsprechende Module ergänzt werden. Ein weiterer Nachteil betrifft die hierarchische Textes. Einige Auszeichnungen können sich auf allStrukturierung der Daten und das aufgrund des gemein akzeptierte Standards stützen, andere koDesigns von XML entstehende Problem, wie man dieren aufgrund neuer Auffassungen, welche Textmit überlappenden Hierarchien umgehen soll. So aspekte wesentlich sind, alle aber notieren eine beliegt z. B. im Fall eines mehrbändigen Lexikons ei- stimmte Sichtweise des Textes. Das ist aber kein
nerseits die Hierarchie >Lexikon - Einzelband - größeres Problem: Zum einen gilt dies auch für jede
Seite - Spalte< vor, andererseits die Hierarchie >Ge- gedruckte Edition, zum anderen haben Textaussamtwerk - Buchstabenstrecke - Einzellemma mit zeichnungssysteme wie TEl nicht nur die MöglichEintrag<. Diese beiden Hierarchien überschneiden keit, mehrere Sichtweisen auf den Text parallel einsich ziemlich sicher; eine Spaltengrenze kann und zutragen, sondern sie stellen auch das Instrument
wird mitten durch einen Eintrag verlaufen. Es gibt bereit, die gewählte Auszeichnung zu dokumentieeine ganze Reihe von Vorschlägen, wie mit diesem ren und damit zur Diskussion zu stellen.
Problem der concurrent hierarchies effizient umgegangen werden kann, aber jede dieser Lösungen hat
Verwendung elektronischer Texte
speZifische Vor- und Nachteile.19
Die Auszeichnung eines historischen Textes ist
stets eine philologische Tätigkeit. Das gilt für die Seitdem die begeisterten oder kulturkritischen Totrichtige Auswahl und Dokumentation der Text- sagungen der Gutenberg-Epoche nicht mehr die
grundlage, für die Auswahl der Aspekte des Textes, Diskussion beherrschen, konnte sich die Einsicht
die mit einer Auszeichnung versehen werden sol- durchsetzen, dass auch in diesem Fall ein neues
len, und das gilt insbesondere, wenn dabei der Text Medium nicht zum Verschwinden des alten führt,
mit anderen Informationen verknüpft wird und sondern zu einer Ausdifferenzierung der VerwenKommentare und Erläuterungen eingetragen wer- dungsweisen. Den Computer wird man auf absehden. Wie weiter unten noch ausgeführt wird, ent- bare Zeit nicht mit ins Bett nehmen, im Buch kann
stehen einige typische Probleme des Text Retrieval man nicht schnell einmal etwas suchen lassen. In
dadurch, dass im Normalfall nur nach Zeichenket- den letzten 20 Jahren der Verwendung von Persoten und nicht nach Sinneinheiten gesucht werden nal Computern haben sich im Wesentlichen drei
kann. Dem lässt sich bereits bei der Textauszeich- Verwendungsweisen entwickelt: Das Lesen des
nung dadurch begegnen, dass in den Text Normali- Textes am Bildschirm, das Information Retrieval
sierungen der Schreibung und die Grundformen und die quantitative Analyse.
der Wörter eingetragen werden. Auch die Disambiguierung von Homografen, seien es nun Worte
oder Satzzeichen, macht den Text für spätere Information Retrieval
Such- und Auswertungsoperationen brauchbarer;
so kann man etwa die mittlere Satzlänge eines In elektronischen Editionen kann man suchen und
Textes nur dann angemessen untersuchen, wenn das Gefundene zählen lassen: Das ist ihr entscheidas Programm in der Lage ist zwischen Punkten als dender Vorteil gegenüber herkömmlichen EditiSatzbegrenzern und als Abkürzungssignal zu un- onen. Die Suche und die Zählung können mit vorterscheiden. 80
her nicht zu erreichender Genauigkeit und Schnelligkeit durchgeführt werden. Allerdings kann im79 Vgl. Steven DeRose: Markup Overlap: A Review and a
Horse. Extreme Markup Languages 2004. Proceedings.
Unter: http://www.mulberrytech.com/Extreme/Pro
ceedings/htm1/2004/DeRoseO 1/EML2004DeRoseO 1.
html (24.4.2007).
80 Zu einem Überblick über diese Probleme am Beispiel
der Erstellung von Wörterbüchern und Indices vgl.
Kurt Gärtner/Peter Kühn: Indices und Konkordanzen
zu historischen Texten des Deutschen. Bestandsaufnahmen, Typen. Herstellungsprobleme, Benutzungsmöglichkeiten. In: Werner Besch u. a. (Hg.): Sprachgeschichte. Ein Handbuch zur Geschichte der deutschen
Sprache und ihrer Erforschung. Berlin/New York '1998.
715-742.
mer nur nach >Zeichenketten< gesucht werden, also
nach einer Reihe von Zeichen, ganz unabhängig
davon, ob sich daraus Sinneinheiten wie Wörter ergeben. Soll eine Zeichenkette als Sinneinheit erkannt werden, muss dem Computer entweder mittels eines Algorithmus oder aufgrund der Textauszeichnung mitgeteilt werden, wie er aus den Zeichenketten Sinneinheiten bilden kann. Das beginnt
mit dem relativ trivialen Problem der Varianz von
Schreibungen in historischen Texten, umfasst die
Variabilität von Wortformen in flektierenden Sprachen wie dem Deutschen und betrifft das gesamte
PrlJbllem, wie vielfältig Wissen, das in mentalen Rel'räsentaltionen vorliegt, auf sprachliche Repräsenabgebildet werden kann.
Unterschied zwischen der Suche nach Wörtern
nach Zeichenketten wird bereits angesichts
einfacher Dinge sichtbar: >Sein<, >seyn< und
sind für ein Suchprogramm drei unterschiedZeichenketten. Wer über die zeitlichen Grenvon Sprachstandardisierungsprozessen und
chtsctlrei,bn:fOl:mcm hinweg fündig werden will,
entweder seine Suche entsprechend gestalten,
nach >sein< und nach >seyn< suchen. oder ein
verwenden, das lemmatisiert ist, in dem
Worte auf ihre Grundform zurückgeführt
und nur nach den Grundformen gesucht
Diese Lösung wird man auch für den Forflektierender Sprachen verwenden,
der Suche nach >laufen< auch die TextsteIlen
, finden, in denen >läufst< oder >lief< vorkommt.
vollkommen automatische Lemmatisierung
für Texte der Gegenwartssprache bereits mit
Ergebnissen vorgenommen werden, ist aber
Texte noch nicht in greifbarer Nähe.
verwendete Algorithmen sind wie die manuell
Auszeichnungen übrigens immer
Initerlllr..
des Textes aufgrund eines
)ra,chrno,dells und Kontextwissens.
.. ria•• r noch ist das Verhältnis von litera}'Uf\lI'1S1Ienschlaftlidlen Fragen und digitalen Texten.
zielen üblicherweise, selbst wenn sie sich als
, textnah verstehen, auf Wissensstrukturen,
seien es Diskurse, Begriffe oder ästhetische ForIllen. Diese Wissensstrukturen automatisch auf digitale Texte zu beziehen, ist kaum möglich. So lässt
sJch bislang ein Bildungsroman ebenso wenig algoPthnleIllbasielrt ermitteln wie die erlebte Rede. Des-
halb ist man hier in erster Linie auf die philologische Erschließung durch Metadaten und entsprechende Auszeichnungen in der Edition angewiesen.
Sind im digitalen Text z. B. Angaben zur Gattung
oder zu Erzählformen eingetragen, können diese in
großen Textsammlungen wiederum ausgewertet
werden. Eine solche Aufbereitung digitaler Texte ist
jedoch, wie auch die Verfahren des semantic webs,
sehr arbeitsintensiv und entsprechend teuer; es ist
daher unklar, ob sie in nennenswerter Weise zum
Einsatz kommen werden. Bis dahin gilt weiterhin
das Diktum von Susan Hockey, dass die Erstellung
von Wortverzeichnissen und Konkordanzen die offensichtlichste Anwendung des Computers für literaturwissenschaftliche Untersuchungszwecke darstellt (vgl. Hockey 1980, 41), und, so kann man
heute ergänzen, häufig wird in der publizierten Arbeit der Einsatz solcher computerphilologischer
Verfahren nicht sichtbar.
Inzwischen haben sich in der Suchtechnologie
für digitale Texte eine Reihe von Standardverfahren
etabliert, um eine Suche besser zu gestalten:
• Zeichenkettenklassen mit Platzhaltern beschreiben; verallgemeinert:
• Reguläre Ausdrücke
• Boole'sche Operatoren wie UND, ODER und
NICHT
• Näheoperatoren, z. B. Suche das Wort x im Abstand von höchsten 10 Wörtern zum Wort y.
• Verwendung von Strukturmerkmalen in der Suche, z. B. Suche nur in den Gedichten oder Suche
nur in Texten zwischen 1795 und 1805 - das
setzt eine entsprechende Auszeichnung der Texte
voraus.
• Die Suche verwendet Verfahren des Information
Retrieval, um die Suchergebnisse zu gewichten
und dann die Trefferliste nach besseren und
schlechteren Treffern zu sortieren.
Im Information Retrieval wird üblicherweise unterschieden zwischen Precision (Genauigkeit) und Recall (Vollständigkeit). Nehmen wir an, wir haben
eine Dokumentensammlung mit 100 Dokumenten,
von denen für eine bestimmte Anfrage 15 relevant
sind (was relevant ist, bestimmt üblicherweise ein
Experte in dem Wissensgebiet). Nehmen wir weiterhin an, eine Suche in den 100 Dokumenten zeigt
20 Dokumente als Treffer an; 12 der 15 relevanten
,
Dokumente gehören zur Treffermenge. Mit Precision bezeichnet man den Anteil der relevanten Dokumente unter den gefundenen Dokumenten, in
diesem Fall wären das 12 von 20 Dokumenten. Recall gibt den Anteil der relevanten Dokumente an,
die gefunden wurden. also 12 von 15 Dokumenten.
Idealerweise würde man bei einer Suche sämtliche
15 relevanten Dokumente und nur diese als Ergebnis erhalten. In diesem Fall wären Precision und Recall gleich hoch. In unserer weniger idealen Welt
stehen die Dinge meistens anders: Je höher der Recall. also die Anzahl der relevanten Dokumente in
meinem Suchergebnis ist. umso mehr nicht relevante Dokumente sind zumeist gleichzeitig in
meinem Resultatset. d. h. entsprechend niedriger
ist der Wert für Precision. Umgekehrt: Wenn der
Wert für die Precision meines Suchergebnisses hoch
ist. also sehr viele der Dokumente. die ich als Ergebnis erhalten habe. wirklich relevant sind und
nur wenige >falsche< Treffer dabei sind. dann ist zumeist der Wert für Recall niedriger. da auch viele
relevante Dokumente nicht im Resultatset enthalten sind. Ein Problem haben also alle Suchstrategien: Man weiß nicht. was man nicht findet. Zwar
kann man bei der Durchsicht einer Treffermenge
gut erkennen. wie präzise die Suchanfrage war. also
wie viele der gemeldeten Treffer tatsächlich im inhaltlichen Sinne als Treffer gezählt werden können.
aber man weiß nicht. wie viele einschlägige Textstellen man gar nicht erst sieht. Das findet man erst
heraus. wenn man den Text oder das gesamte Korpus durchliest - was immer seltener eine tatsächliche Option ist. 81
Quantitative Analyse
Der Computer als number cruncher ist geradezu
prädestiniert für quantitative Verfahren der Textuntersuchung. Solche Verfahren sind zwar keineswegs
erst für den Computer erfunden worden. aber der
Umfang des verarbeiteten Materials und die Kom81 Vgl. Reginald Ferber: Information Retrieval. Suchmodelle
und Data-Mining-Verfahren für Textsammlungen ulld
das Web. Heidelberg 2003. Siehe auch Catherine N. Ball:
Automated Text Analysis. Cautionary Tales. In: Literary
and Linguistic Computing9. Jg.• 4 (1994). 295-302.
plexität der Zugriffe können durch ihn deutlich gesteigert werden. Der größte Teil der quantitativen
Verfahren. kurz die Stylometrie. wurde mit dem
Ziel eingesetzt, Unterschiede und Ähnlichkeiten
zwischen verschiedenen Texten zu belegen. sei es
um die Autorschaft eines Textes zu klären, um Texte
verschiedenen Entwicklungsabschnitten eines Autors zuzuordnen. um Epocheneinheiten zu beschreiben oder auch um zu überprüfen. ob es
geschlechtsspezifische Unterschiede in der Textproduktion gibt. Stylometrie ist ein kleines Forschungsfeld. an dem neben Literaturwissenschaftlern auch
Linguisten arbeiten. Ein praktisches Anwendungsfeld ist die forensische Linguistik. die z.B. die Zuschreibung von Erpresserbriefen untersucht. Die
ersten quantitativen Ansätze finden sich bereits
lange vor der Erfindung des Computers. Schon 1851
wurde erstmals der Vorschlag gemacht. die Authentizität eines Textes durch Vergleich der Wortlängen
festzustellen. und noch im 19. Jh. wurden mit manuellen Mitteln die ersten quantitativen Studien
durchgeführt (zur Geschichte der Stylometrie vgl.
Romme11995, Kap. 1.3 sowie Oakes 1998).
Die quantitative Stilanalyse hat seit ihren Anfängen eine ganze Reihe von verschiedenen Textmerkmalen herangezogen. um Thesen über Ähnlichkeiten oder Differenzen plausibel belegen zu können. Ausgangspunkt dafür sind unterschiedliche
Stiltheorien. aus denen Hypothesen abgeleitet wurden. welche Merkmale relevant sind und welche
davon sich statistisch überprüfen lassen. Zählt man,
wie häufig in einem Text oder einer Textsammlung
Wörter vorkommen. dann bilden diejenigen Wörter die größte Klasse. die nur sehr selten oder sogar
nur einmal (hapax legomena) vorkommen. Nur wenige Wörter kommen häufiger vor. Da statistische
Verfahren aber nur valide Ergebnisse bei größeren
Zahlen aufweisen. stützt man sich zumeist auf die
häufiger vorkommenden Wörter (vgl. Oakes 1998.
201).
Die Stylometrie, die vor allem Unterschiede in
den Blick bekommen möchte. die nicht bewusst
von Autoren kontrolliert werden, hat u. a. folgende
Textmerkmale zur Erfassung von Unterschieden
herangezogen:82
82 Vgl. neben den im Text genannten Titeln Morton
1978, Burrows 1992 und Rosanne G. Potter: Statistical
• positionen von Wörtern (Satzanfang. -mitte,
-ende)
• Kollokationen, also das Auftauchen von Wörtern
im Kontext anderer Wörter
• Unterschiede in der Satzlänge
• Verhältnis von Type/Token, so kann etwa jede
Form eines Lexems (>lief<. >läuft< usw.) als Token
verstanden werden. das zum Type >laufen< zu beziehen ist.
• Durchschnittliche Wortlängen
• Vorkommen und Häufigkeit ausgewählter Substantive und Phrasen
• Häufigkeitsverteilung von sehr häufig vorkommenden Wörtern
• Häufigkeit von Trigrammen, also von drei Wörtern, die in der gleichen Folge vorkommen
• Syntaktische Merkmale
"Häufig werden mehrere Textmerkmale zum Ver,gleich herangezogen. da die Verwendung mehrerer
Merkmale die Ergebnisse deutlich verbessert. Eimge Forscher haben daher sehr umfangreiche
Merkmalslisten (40 und mehr) verwendet.
. Voraussetzung für jeden quantitativen Vergleich
eine gründliche historische Analyse des Materium typische Fehlerquellen wie z.B. Zitate, Plaoder Herausgebereingriffe auszuschließen. 8l
,GlruItdliage des Vergleichs ist eine einheitliche ErAufbereitung von Texten. z. B. eine
Normalisierung. um die Ergebnisse
durch orthografische Variation zu verfälwenn diese als kontingent erachtet werden
Die Stichproben müssen groß genug sein, um
: ß,I:attSti!ich valide Aussagen zu ermöglichen. Da man
weiß. dass Gattungen die Schreibweise
oelmrnmlen und Unterschiede zwischen AutoUnterschiede zwischen Gattungen überwerden können, müssen die Vergleichstexte
Gattungen stammen.
Die Korrelation der ausgewählten Textmerkmale
kann dann mit unterschiedlichen statistischen Ver-
Analysis of Literature: A Retrospective on Computers
and the Humanities, 1966-1990. In: Computers and
· the Humanities 25. Jg. (1991), 401-42.
83 Vgl. Joseph Rudman : Non-Traditional Authorship Attribution Studies in Eighteenth Century. Stylistics Statistics and the Computer. In: Jahrbuch für Computerphilologie 4. Jg. (2002), 151-166.
'
fahren bestimmt werden (vgl. den Überblick in
Oakes 1998). Ergebnisse solcher Untersuchungen
sind stets statistische Aussagen: Mit einer Wahrscheinlichkeit von x Prozent sind die beiden Texte
vom gleichen Autor. Das heißt. es gibt keine eindeutigen Sicherheiten. sondern lediglich Aussagen
mit einer bestimmten Wahrscheinlichkeit. aber das
gilt ja für sehr viele sozial- und naturwissenschaftliehe Aussagen auch. Immerhin sollte man sich darüber klar sein, dass stylometrische Befunde einen
anderen Status haben als eine Notiz des Autors,
dass dieser Text auch von ihm stammt.
Stylometrische Verfahren machen bislang einen
großen Teil der literaturwissenschaftlichen quantitativen Verfahren aus, aber sie sind nicht die einzigen. Ein Bereich, in dem in den letzten Jahren
einige. zur Zeit noch relativ verstreute Arbeiten
vorgelegt wurden. ist die Anwendung computerphilologischer Verfahren auf narratologische Fragestellungen. wohl weil die hohe Präzision der
strukturalistischen Narratologie eine solche Verwendung ermöglicht. Jan Christoph Meister etwa
hat in einer Reihe von Arbeiten die Begriffe >Ereignis< und >Handlung< untersucht. Er sammelt über
ein eigens dafür geschaffenes Programm Einschätzungen von Lesern. welche Sätze oder Teilsätze
eines literarischen Textes ein Ereignis ausmachen,
welche Art von Ereignis vorliegt und wie diese Ereignisse zu Episoden verbunden werden. In einem
zweiten Schritt wertet er die generierten Analysedaten mehrerer Benutzer aus. um auf diese Weise
empirisch basierte Aussagen über den Handlungsaufbau von narrativen Texten machen zu können. 84
Semino und Short haben eine wichtige Arbeit
zur Repräsentation von Sprechen, Schreiben und
Denken in fiktionalen Texten, Zeitungsberichten
und (auto-)biografischen Texten vorgelegt. Grundlage ihrer Analyse ist ein eigens dafür entwickeltes
Korpus moderner englischsprachiger Texte. das
mit einem selbst entwickelten System manuell ausgezeichnet wurde. 85 Vyacheslav Yevseyev hat in
84 Vgl. Jan Christoph Meister: Computillg Action. A Narratological Approach. Berlin/New York 2003.
85 Vgl. Elena Semino/Mick Short: Corpus Stylistic.
Speech. Writing alld Thol/ght Presentation ill a Corpus
of English Writing. London 2004.
einem dreisprachigen Korpus von Erzähltexten
quantitative Untersuchungen zur Narrativität in literarischen Texten durchgeführt und kommt unter
anderem zu dem Ergebnis, dass längere Texte üblicherweise weniger narrativ sind als kürzere.86 David Herman hat anhand eines Korpus von Erzähltexten aus dem 19. und 20. Ih. Bewegungsverben
untersucht, um mit ihnen Hypothesen über Unterschiede zwischen acht Textsorten (vier davon sind
realistische und psychologische Erzählungen aus
dem 19. Ih und dem 20 Jh.) zu prüfen; seine Ausgangshypothese, dass psychologisches Erzählen mit
weniger und anderen Formen der Bewegungsbeschreibung einhergeht, ließ sich nicht bestätigenY
Fotis Jannidis, Gerhard Lauer und Andrea Rapp
haben überlegungen zum Aufbau eines Romankorpus mit Texten von 1500 bis 1900 und zu dessen
buchhistorischer und klassisch-narratologischer
Auszeichnung vorgelegt, das die Basis für quantitative historische Längsschnittuntersuchungen bilden soll.88 Franco Moretti hat quantitative Verfahren, vor allem basierend auf der Auswertung von
Sekundärliteratur, verwendet, um langfristige historische Prozesse wie die Entwicklung des Romans,
von Genres oder Erzähltechniken wie der erlebten
Rede zu erfassen.89
Statistische Verfahren sind lediglich ein Werkzeug. Sie sind an keine besondere Form der Fragestellung gebunden und setzen auch keine spezi86 Vgl. Vyacheslav Yevseyev: Measuring Narrativity in
Literary Texts. In: Jan Christoph Meister (Hg.): Narratology beyond Literary Criticism. Mediality, Disciplinarity. Berlin/New York 2005, 109-124.
87 Vgl. David Herman: Quantitative Methods in Narratology. A Corpus-Based Study of Motion Events in
Stories. In: Jan Christoph Meister (Hg.): Narratology
beyond Literary Crltlcism. Mediality. Disciplinarity.
Berlin/New York 2005. 125-149.
88 Vgl. Fotis Jannidis/Gerhard LauerlAndrea Rapp: Hohe
Romane und blaue Bibliotheken. Zum Forschungsprogramm einer computergestützten Buch- und Narratologiegeschichte des Romans in Deutschland (15001900). In: Lucas Marco Gisi/Jan Loop/Michaei Stolz
(Hg.): Literatur und Literaturwissenschaft auf dem Weg
zu den neuen Medien. germanistik.eh 2006. http:"
www.germanistik.eh/scripts/download.php?id=Ho
he_Romane_und_blaue_Bibliotheken (24.4.2007).
89 Vgl. Franco Moretti: Graphs, Maps, Trees. Abstract Models for a Literary Theory. London/New York 2005.
fische Theorie voraus. Digitale Texte generieren
nicht automatisch Daten über sich, sondern erst,
wenn man höflich darum bittet (Burrows). Jede
Frage aber ist wiederum eingebettet in einen interpretatorischen Kontext, in dem sie erst sinnvoll
wird. Erst diese Vorannahmen und Hypothesen erlauben auch eine angemessene Interpretation der
Daten, die vom Computer geliefert werden. Ganz
anders als der Mythos vom objektiven und präzisen
Computer erwarten lässt, werden hier Interpretationen aufgrund von Daten gewonnen, die wiederum
auf Interpretationen basieren. Dies bedeutet keineswegs den Einstieg in die fröhliche Beliebigkeit.
Ein Text kann nur aufgrund von Weltwissen angemessen verstanden werden; sinnvolle Fragestellungen sind daher stets in einen entsprechenden Deutungshorizont eingebettet. Computerphilologen
sind daher besonders verpflichtet, ihre Vorannahmen und Hypothesen möglichst explizit darzulegen. Sie führen auch nicht automatisch zu
inhaltlichen Ergebnissen. Vielmehr müssen die Ergebnisse quantitativer Untersuchungen immer interpretiert werden, was insbesondere bei uneindeutigen Ergebnissen nicht leicht fällt.
Quantitative Verfahren werden in der literaturwissenschaft nicht immer gern gesehen: Bestätigen
sie gängige Einsichten, stehen sie im Verdacht,
überflüssig zu sein; widersprechen sie aber den üblichen Ansichten, schafft man sie sich mit dem Hinweis vom Hals, dass man Statistiken ohnehin nicht
trauen könne. Letztendlich, so kann man mit kaum
verhohlener Erleichterung hören, entziehen sich
die wesentlichen literaturwissenschaftlichen Fragestellungen der Quantifizierung. Solche Vorbehalte
übersehen die Chance, die sowohl in der Bestätigung des Bekannten als auch in der Problematisierung liebgewonnener Vorurteile durch neue und
andere Forschungsmethoden liegt.
Digitale Editionen
Die Erstellung digitaler Editionen ist eines der
Hauptarbeitsgebiete für Computerphilologen.90 Die
90 Vgl. zum Folgenden Folis Jannidis: Elektronische Edi-
tion. In: Rüdiger Nutt-Kofuth/Bodo Plachta (Hg.):
Editionen zu deutschsprachigen Autoren als Spiegel der
erste deutschsprachige elektronische Edition eines von Lessing bis in die frühe Moderne.93 Die Digiumfangreichen literarischen Korpus ist die Digita- tale Bibliothek verwendet ein selbst entwickeltes
lisierung der Hamburger Ausgabe von Goethes Programm mit einer proprietären Kodierung. Die
Werken - allerdings ohne den Kommentarteil - Darstellung des Textes auf dem Bildschirm ist seidurch Randall 1. Jones und Helmut Schanze.91 Die tenorientiert, imitiert also das Buch, wodurch auch
Edition wies bereits typische Vorteile philologisch das Zitieren vereinfacht wird. Der eigentliche Vorbetreuter elektronischer Editionen auf: Die Texte teil liegt in der ausgesprochen leistungsfähigen und
waren relativ sorgfältig korrigiert worden, und das schnellen Suchmaschine, die die große Textmenge
leistungsfähige Programm WordCruncher erlaubte erschließt. Neben den üblichen Möglichkeiten, die
schnelle und recht komplexe Abfragen ein- Suche zu verfeinern (Trunkierung, Boole'sche Operatoren, Näheoperatoren, Einschränkung der Suche
sc:hließlich einfacher Kollokationsanalysen.
die erste kritische elektronische Edition, die auf bestimmte Texte), kann man auch eine themadeutschen Sprachraum erstellt wurde, verwen- tische Suche verwenden, die Information RetrievalWordCruncher: die Ausgabe des Nachlasses Techniken einsetzt. Die Ausgabe weist allerdings
Robert Musil, herausgegeben von Friedbert im Vergleich zu den meisten von Philologen hergeKarl Eibl und Adolf Frise.92 Es han- stellten Editionen eine höhere Fehlerquote auf.
Der Verlag Chadwyck-Healey hat sich schon
sich um eine der wenigen Editionen, die nur
Format vorliegen. Hauptanlie- früh auf sehr umfangreiche DigitalisierungsproEdition war die Vermittlung der Textinfor- jekte konzentriert und die gedruckten Ausgaben
und der wichtigsten Autoreingriffe (Strei- von Nationalklassikern in verschiedenen Ländern
Einfügung usw.), nicht aber die Wiedergabe digitalisiert; in Deutschland u. a. die Weimarer Ausder Manuskripte. Alle diakritischen gabe von Goethes Werken.94 Die exorbitant teure
wurden als speZifische Zeichenketten defi- elektronische Weimarer Ausgabe enthält neben
allerdings sind diese Zeichenketten für Word- dem kompletten Text der gedruckten Edition auch
nicht unterscheidbar von den anderen, noch die Biedermann'sche Sammlung der Gedie so kodierte Information nicht automa- spräche mit Goethe. Zwar handelt es sich um eine
SGML-kodierte Edition, aber ein wesentlicher Vorausgewertet werden kann.
Laufe der 1990er Jahre setzten sich grafische teil des SGML-Standards, der ein Vorläufer von
nul:zerschnit1:ste.llen und CD-ROMs allgemein XML ist und für langfristige Datenhaltung entwiund veränderten dadurch auch die Möglich- ckelt wurde, ist für die Käufer der Edition nicht vorfür digitale Editionen grundlegend. Erwäh- handen: die langfristige Verfügbarkeit des Textes,
unter den schnell entstandenen Leseaus- da nur die kompilierte Form des Textes zusammen
kommerziell publizierte Reihe Digitale mit dem Suchprogramm ausgeliefert wurde; inzwivon DirectMedia. Sie setzt ganz bewusst schen ist der Text nur noch über ein Webinterface
wesentliche Stärke des Speichermediums zugänglich. Ein besonderer Vorteil der Edition bedie Masse. Ihr erster Band enthielt steht darin, dass der Anwender in seinen Suchab70.000 digitalen Seiten einen repräsenta- fragen gezielt die Struktur der Auszeichnung verQuerschnitt durch die kanonisierte Literatur wenden kann.
Die Studienausgabe der Werke des jungen Goethe ist eine Hybridausgabe, deren elektronischer
Bditionsgeschichte. Tlibingen 2005, 457-470. Zur hier Teil sieben Mal so umfangreich ist wie der genur knapp angesprochenen internationalen Entwick- druckte. Sie enthält neben den Texten Goethes
1I111g vgl. jetzt Burnard/O'Keeffe/Unsworth 2006.
zahlreiche weitere Texte (z. B. spätere Texte GoeGoethe Werke. Hamburger Ausgabe. Elektronische Ver... 810n. Bearb. von Helmut Schanze. Tübingen 1989.
MusiI: Der literarische Nachlaß. Hg. von Fried- 93 Deutsche Literatur von Lesslng bis Kafka. Digitale Bibert Aspetsberger/Karl Eibl/Adolf Frise. CD-ROM mit
bliothek. Bd. 1. Die Basisbibliothek erschien 1997.
. Handbuch und Erschließungsprogramm PEP. Rein- 94 Goethes Werke auf CD-Rom. Weimarer Ausgabe. Cambei Hamburg 1992.
bridge u. a. 1995.
thes, Berichte über Goethe, wichtige Bezugstexte,
wie etwa die Bibel oder Hederichs mythologisches
Lexikon), und vor allem die philologische Erschließung durch den Kommentar und die Verlinkung
unterscheidet diese Studienausgabe von den oben
erwähnten Leseausgaben.9s Das ursprünglich verwendete Programm Folioviews wird allerdings
nicht mehr weiterentwickelt. Da die Herausgeber
jedoch außerdem eine TEl -Version der Ausgabe
erstellt haben, ist die Migration der Daten in eine
Internet-Edition relativ unaufwendig.
Der Oberfläche der Historisch-Kritischen Keller-Ausgabe (HKKA), herausgegeben von Walter
Morgenthaler, ist anzumerken, dass ihre Entstehungszeit viele der hier genannten Entwicklungen
überspannt: Sie ist eine Mischung aus einer DOSund einer Windows-Anwendung. 96 Die HKKA ist
wahrscheinlich die innovationsreichste deutschsprachige elektronische historisch-kritische Edition. Ihre Basis ist ein Text, der - im Gegensatz zu
den meisten anderen Editionen - in einer relationalen Datenbank abgelegt ist. Neben den üblichen
Möglichkeiten, den Text zu durchsuchen, zeichnet
sich die Edition vor allem durch die verschiedenen
Sichten auf den Text aus. So kann der Leser eine
Textstufe als Basistext wählen und aUe anderen
Textstufen als Varianten anzeigen lassen; er muss
also nicht die vom Editor gewählte als Basistext
übernehmen. Auch in der Integration der Handschriften in die elektronische Edition geht die
HKKA neue Wege. Die Handschriften, die in hoher
Auflösung angezeigt werden können, werden auch
dem Leser zugänglich gemacht, der Kellers Handschrift nicht lesen kann, da die Zeilen unter dem
Mauszeiger auf Wunsch transkribiert angezeigt
werden. Insgesamt gelingt es der Edition sehr gut,
die medial bedingte starke Trennung von Text und
Bild in der Benutzerschnittstelle zu überspielen.
Ausgesprochen einflussreich für die internationale Editionsphilologie war Peter Robinsons Chau95 Kar! Eibl/Fotis Jannidis/Marianne Willems (Hg.): Der
junge Goethe in seiner Zeit. Texte und Kontexte. In zwei
Bänden und einer CD-ROM. Frankfurt a. M. 1998.
96 Walter Morgenthaler (Hg.): Gottfried Keller: Sämtliche
Werke. (Medienkombination) 1996ff. Vgl. zur Geschichte dieser Edition Walter Morgenthaler: Gottfried Keller - elektronisch ediert. In: Jahrbuch für
Computerphilologie 1. Jg. (1999), 91-100.
cer-Edition, die für einzelne Teile des Werks die gesamte Überlieferung digital aufbereitet, Text und
Bild plausibel integriert und für die Ermittlung des
Stemmas Algorithmen aus der Bioinformatik testet, die dort zur Abstammungsermittlung von
DNA-Sequenzen eingesetzt werden. Ebenso wichtig sind Robinsons Ideen, wie man die Fülle an Varianz in antiken oder mittelalterlichen Texten intuitiv und einfach visualisieren kann.97
Die Vernetzung hat die Distribution von digitalen Texten vereinfacht. Dies war und ist für die
meisten Editionen immer noch die Hauptfunktion
der Publikation im Internet. 98 Außerdem hat sie inzwischen auch neue Formen der Zusammenarbeit
hervorgebracht. Mustergültig ist dies beim Hypernietzsche-Projekt umgesetzt99: Die Projektverantwortlichen sehen ihre Hauptaufgabe weniger im
Erstellen einer spezifischen Edition, sondern vielmehr darin, eine Plattform zu entwickeln, die es
anderen ermöglicht, Editionen zu erstellen und
auch die Forschungsliteratur über den edierten Autor unter einer gemeinsamen Oberfläche zugänglich zu machen. Ganz folgerichtig gibt es daher nun
neben dem eigentlichen Hypernietzsche, in dessen
Kern Bilddigitalisate des Weimarer Nietzsche-Archivs stehen, ein allgemeines Projekt namens Hyper, das auch für andere Autoren Verwendung finden soll.
Weitere Aspekte
Ein vergleichsweise umfangreiches Teilgebiet der
Computerphilologie ist die Hypertexttheorie und
die Auseinandersetzung ·mit Hyperfiction, also
künstlerischen Hypertexten (vgl. dazu 1.7.6). Außerdem haben sich neben den genannten Arbeitsschwerpunkten eine Reihe von anderen Ansätzen
entwickelt, von denen noch nicht klar ist, inwieweit
97 Vgl. Peter Robinson: Where We Are With Electronic
Scholarly Editions, And Where We Want To Be. In:
Jahrbuch für Computerphilologie 5. Jg. (2003), 125146.
98 VgJ. Z. B. das renommierte Women Writers Project unter http://www.wwp.brown.edu (24.4.2007) oder das
Dickinson Electronic Archive unter http://www.emily
dickinson.org (24.4.2007).
99 VgJ. http://www.hypernietzsche.org (24.4.2007).
sie solitäre Unternehmungen sind oder zu umfangreicheren Arbeitsfeldern anwachsen werden. Ein so
junges Teilfach wie die Computerphilologie, das
zudem an die ausgesprochen dynamische Entwicklung der Informationstechnologien angekoppelt ist,
ist in vielfacher Weise noch unbestimmt und entwicklungsoffen. Einige dieser Trends seien hier zumindest angesprochen.
Das Programmieren von spezifischen Anwendungen für Literaturwissenschaftier: Wie eingangs
erwähnt, gehört die Verfügbarkeit von Programinen und Programmpaketen wie TUSTEP oder
.' TACT zu den wichtigen Stationen der Geschichte
Fachs. Die weitere Entwicklung in diesem Feld
sicherlich weniger durch den selbst programqU,erelndEm Literaturwissenschaftier als durch Kozwischen Literaturwissenschaftlern
Informatikern geprägt. Die oben erwähnte
und Publikationsplattform von Hypergehört zu derartig gestalteten Projekten
auch Textgrid, das eine servicebasierte Netzarfür das Erstellen und Verwenden literaEditionen aufbaut. lOo Ediwerden dann ihre Texte in einem auf ihre Bezugeschnittenen XML-Editor eingeben
auszeichnen können; zugleich werden sie Aufdie bei der Erstellung von Editionen und
anfallen, z. B. die Kollationierung oder die
durch den Aufruf von Webseraus ihrer Arbeitsumgebung heraus bearbeiten
Hinzu kommt die Unterstützung der editiISp.l1il()!ojgisj;he,n und korpuslinguistischen Arbeit
die Anbindung an andere Editionen und
sowie an historische Wörterbücher.
Visualisierung literaturwissenschaftlicher InrmaU,omm z. B. in Editionen: In digitalen Texten
bekanntlich die Daten und die Sichten auf die
unterschieden, aber dadurch stellen sich
Fragen: Welche Sichten sind besonders effizizur Vermittlung des zumeist relativ abstrakten
Wissens. Die buchbaVisualisierungsstrategien haben sich über
afil:hllindierite hinweg entwickelt und die sehr viel
Möglichkeiten des digitalen Mediums,
nicht nur schrankenlos Text, Bild, Film und
Vgl. http://www.textgrid.de (24.4.2007).
Ton mischen, sondern auch interaktive und dynamische Schnittstellen zur Verfügung stellen kann,
sind noch lange nicht ausgereizt. Beispiele für die
Zusammenarbeit von einschlägigen Spezialisten
für die Gestaltung von Human Computer Interfaces
und Visualisierungen von komplexen Daten mit
Philologen und Editionsspezialisten lassen erahnen, welcher Reichtum an Möglichkeiten hier noch
zu erschließen ist. 101
Zu erwähnen ist auch der Einsatz von E-Learning für die Vermittlung von literaturwissenschaftlichem Wissen 102 oder die Veränderung der Wissensehaftskommunikation (vgl. II1.4.2) durch den
Einsatz von Computern, z. B. durch Online-Zeitschriften wie IASLoniine oder das bereits erwähnte
Hyper.
Computerphilologie hat sich in den letzten Jahrzehnten als kleines, aber dynamisches Teilfach der
Literaturwissenschaft etablieren können. Dabei
konnte in den verschiedenen Arbeitsfeldern bereits
ein umfassender Bestand an etabliertem Wissen gesammelt werden, aber sicherlich ist die Zeit des
ständigen Experimentierens mit neuen Formen der
Wissensgewinnung noch nicht abgeschlossen.
Literatur
Burnard, LoufO'Keeffe, Katherine O'BrienfUnsworth,
John (Hg.): Electronic Textual Editing. New York 2006.
Burrows, John F.: Computers and the Study of Literature.
In: Christopher S. Butler (Hg.): Computers and Written Texts. Oxford 1992, 167-204.
Hockey, Susan: A Guide to Computer Applications in the
Humanities. London 1980.
Hockey, Susan: Elee/ronic Texts in the Humanities. Oxford
2000.
Jannidis, Fotis: Computerphilologie. StuttgartfWeimar
2008.
101 Vgl. Aurele CrassonfJean-Daniel Fekete: Structuralion des manuscrits. Du corpus it la region. In: Proceedings ofCIFED 2004. La Rochelle 2004,162-168.
http://www.lrLfrf-fekete/ps/CrassonFeketeCifed04final.pdf (24.4.2007).
102 Vgl. Jochen Vogt: Ehlladung zur Literaturwissenschaft. München 2002 und die zugehörige Website http://www.uni-essen.de/einladung (24.4.2007);
oder Katrin Fischer (Hg.): Literatllrwissenschaftliche
Begriffe online: hup:llwww.li-go.de (24.4.2007).
Morton. Andrew Queen: Literary De/ee/ion. How to prove
authorship and fraud in literature and doeuments. New
York 1978.
Oakes. Michael P.: Statistics for Corpus Linguisties. Edinburgh 1998.
Robinson. Peter: The Transcription of Primary Textual
Sources. Oxford 1994.
Rommel. Thomas: »And trace it in this poem every Une«.
Methoden und Verfahren computerunterstützter Text-
analyse am Beispiel von Lord Byrons Don Juan. Tübingen 1995.
Schreibman. Susan/Siemens. Ray/Unsworth. John (Hg.):
A Companion to Digital Humanities. Oxford u. a. 2004.
Sperberg-McQueen. C. Michael/Burnard. Lou: TEl PS.
Guidelines for Eleetronic Text Encoding and Interchange. Oxford u.a. 2005. http ://www.tei-c.org/P5/
(24.4.2007).
Fotis Jannidis
!"#$%&'()*+',%-$%*"./)0'/)'!%1%)'23/405)6'2."$%0'789.".03':/1%$0&';<=>?;@A>B
C4"3/970BD'E95)*/'F/9%"".
!/49*%D'G9.".*5$'()H4.9#&'I/$+'JK&':/+';'7C4"4L)'M>>NB&'OO+';J=P;A@
Q4R$.03%6'R#D'The University of Chicago Press
!"5R$%'S,TD'http://www.jstor.org/stable/10.1086/606125 .
C**%00%6D'>KU>=UM>;;';ADMM
Your use of the JSTOR archive indicates your acceptance of JSTOR's Terms and Conditions of Use, available at .
http://www.jstor.org/page/info/about/policies/terms.jsp. JSTOR's Terms and Conditions of Use provides, in part, that unless
you have obtained prior permission, you may not download an entire issue of a journal or multiple copies of articles, and you
may use content in the JSTOR archive only for your personal, non-commercial use.
Please contact the publisher regarding any further use of this work. Publisher contact information may be obtained at .
http://www.jstor.org/action/showPublisher?publisherCode=ucpress. .
Each copy of any part of a JSTOR transmission must contain the same copyright notice that appears on the screen or printed
page of such transmission.
JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of
content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms
of scholarship. For more information about JSTOR, please contact [email protected].
The University of Chicago Press is collaborating with JSTOR to digitize, preserve and extend access to Critical
Inquiry.
http://www.jstor.org
Style, Inc. Reflections on Seven Thousand
Titles (British Novels, 1740 –1850)
Franco Moretti
Un beau titre est le vrai proxénète d’un livre.
—ANTOINE FURETIÈRE
The British novel, from 1740 to 1850. Peripheral, often despised at
the beginning of the period, by its end the novel has moved very close
to the core of the national culture. So, this is an important century, for
this literary form. But, truth be told, the historical framework of this
study has been largely dictated by an extrinsic reason: unlike earlier and
later periods, from 1740 to 1850 we have very good bibliographies.
Which is to say, good lists of titles; in a few years, we will have a digital
archive with the full texts of (almost) all novels ever published; but for
now, titles are still the best way to go beyond the 1 percent of novels that
make up the canon, and catch a glimpse of the literary field as a whole.
And then, titles are not just a good research tool: they are important in
themselves—Walter Scott’s first word as a novelist, literally, was “title”
(“The title of this work has not been chosen without the grave and solid
deliberation”)1—and they are important because, as Claude Duchet has
put it, they are “a coded message—in a market situation.”2 A code, in
This article has been greatly improved by exchanges with Sam Bowles, David Brewer, Bob
Folkenflik, Matthew Jockers, David Krakauer, and Michael Silverstein; to all of them, my
thanks. A further, more abstract study (coauthored with Jockers and Krakauer) should soon
extend and refine the argument that follows.
1. Walter Scott, Waverley, ed. Andrew Hook (Harmondsworth, 1972), p. 33.
2. Claude Duchet, “‘La Fille abandonnée’ et ‘La Bête humaine’: Éléments de titrologie
romanesque,” Littérature 12 (Dec. 1973): 50; my trans.
Critical Inquiry 36 (Autumn 2009)
© 2009 by The University of Chicago. 0093-1896/09/3601-0003$10.00. All rights reserved.
134
Critical Inquiry / Autumn 2009
1 . Unless otherwise indicated, the sources of all the figures are the following:
1740 – 49: Jerry C. Beasley, Novels of the 1740s (Athens, Ga., 1982)
1750 – 69: British Fiction, 1750 –1770: A Chronological Check-List of Prose Fiction Printed in
Britain and Ireland, ed. James Raven (Newark, Del., 1987)
1770 –1829: Peter Garside et al., The English Novel, 1770 –1829: A Bibliographical Survey of Prose
Fiction Published in the British Isles, 2 vols. (Oxford, 2000)
1830–36: “The British Novel 1830–36: A Bibliographical Survey of Fiction Published in the British
Isles,” ed. Garside et al., www.cardiff.ac.uk/encap/journals/corvey/1830s/index.html
1837–50: Andrew Block, The English Novel, 1740–1850: A Catalogue Including Prose Romances,
Short Stories, and Translations of Foreign Fiction, 2d ed. (London, 1961)
The chart follows both mean and median length in order to offer a more complete picture of how
titles vary: the mean (or average) provides information about the often extravagant length of some
titles—while the median draws attention to the “central” length of each given year (that is to say,
that which has an equal number of results above and below it). The difference between the two
forms of measurement becomes particularly clear in years such as1780 (with the 346-word-long
History of Miss Harriot Fairfax) or 1784 (with the 273 words of The Maid of the Farm; Or memoirs of
Susannah James): in these two instances, the mean balloons to 37.9 and 19.7 respectively, while the
median (8.5 and 7) is hardly affected.
FIGURE
the market: half sign, half ad, the title is where the novel as language
meets the novel as commodity, and their encounter can be extremely
illuminating. In what follows, I focus on three moments of this history:
first, I describe a major metamorphosis of eighteenth-century titles,
and try to explain its causes; next, I suggest how a new type of title that
F R A N C O M O R E T T I teaches literature at Stanford University. His most recent
books have been Atlas of the European Novel, 1800 –1900 (1998) and Graphs,
Maps, Trees (2005).
135
136
Franco Moretti / Style, Inc.
emerged around 1800 may have changed what readers expected of novels; and finally, I make a little attempt at quantitative stylistics, examining some strategies by which titles point to specific genres. Three
sections; three pieces in the large puzzle of the literary field.
1
The major metamorphosis of eighteenth-century titles is simple: in the
space of two generations, they become much much shorter. In figure 1,
where their length is measured in the number of words, the median oscillates between ten and twenty words for the first twenty-five years; it drops
quickly to ten, around 1770; then to six, by 1790; and it remains there (with
minor ups and downs) until the mid-nineteenth century. From fifteen–
twenty words, to six. And titles don’t just become shorter, in the course of
these 110 years, they also become much more similar to each other: in
figure 2, the steep drop of the standard deviation (which measures the
degree of variation within a system) indicates precisely how rapidly the
range of options is shrinking. To understand what this means, look at the
distribution of mid-eighteenth-century titles in figure 3: many of them are
already quite short, with between one and ten words, but there is still a lot
of variety, with plenty of titles that use fifteen words, twenty, twenty-five,
thirty, forty, or more. A hundred years later (fig. 4) this tail is gone, and
long titles have virtually vanished.3 It’s not just that all titles are becoming
shorter, in other words; it’s also that a certain type of title disappears altogether. How long is long is of course an open question, but if we set the
limit at fifteen or twenty words—which is quite long, for a title—then long
titles were between 40 and 60 percent of the total in the mid-eighteenth
century (fig. 5); by 1800 their number had already dropped to 5–10 percent;
eventually, they just disappeared.4
3. The thirty novels in the New York Times best-seller list in November 2006 used between
one and six words; the forty in November 2008, between one and seven. In both cases, the
mean was around 2.7 words—slightly higher than Austen’s 2.
4. Counting the number of words in a title . . . But what exactly is a title? Among the novels
for the year 1802, Peter Garside’s masterful bibliography lists Delaval. A Novel. In three Volumes.
But are expressions that point so explicitly to extratextual realities like “in three Volumes” (or
“dedicated to Her Royal Highness The Duchess of York,” “from the French of M. Victor
Hugo,” and so on) really part of the title? In my opinion, no; and so, useful as such information
is in other respects, I have removed it from the database, leaving the title in question as Delaval.
A Novel. But what about “A Novel” (“A Romance,” “A Tale,” “In a Series of Letters”)? Here, the
reference is not so much extra-, as metatextual: all these markers designate a class, rather than a
specific book: invaluable for the analysis of novelistic subgenres, they have little or nothing to
say about individual cases. As a consequence, I have preserved them the first few times they
appear in a title (when they are presumably indicating something new and specific about the
given book), and deleted them thereafter; making an exception for those bizarre cases where the
wider class is evoked only in order to estrange it: “A Rhapsodical Romance,” “A Dramatic
FIGURE
2.
FIGURE
3.
FIGURE
4.
FIGURE
5.
Critical Inquiry / Autumn 2009
Why? And, before coming to that, what were they like, those long titles?
What did they do, with all those words? Usually, they provided a summary
of the novel: A letter from H— g— g, Esq; One of the Gentlemen of the
Bedchamber to the Young Chevalier, And the Only Person of his Retinue that
attended him from Avignon, in his late Journey through Germany, and elsewhere; Containing Many remarkable and Affecting Occurrences which happened to the P— during the course of his mysterious Progress. To a Particular
Friend. Today, this sounds odd; but actually, a summary at the beginning
of a novel makes sense: a novel is a narrative, and the title—the title page,
here one sees why books needed a whole page for their title—the title-assummary was a shorter narrative: it presented the main events of the story,
the characters, the setting, the ending. It made sense. But, the cultural
ecosystem was changing in a way that was incompatible with it: in the
course of the eighteenth century, the publication of novels in Britain grew
dramatically (fig. 7), from a few books a year in the early decades, to
twenty-five or so in mid-century, seventy– eighty around 1800, and about
one hundred a year in early Victorian times. And as more novels circulated, two things happened. In the third, and even more so in the fourth
quarter of the eighteenth century, the Monthly and other magazines
started to publish reviews of many new novels, making title page summaries somewhat superfluous: as the literary system grew, in other words,
some of its functions became more specialized, freeing titles from having
to provide a detailed description. And then, as the number of new novels
kept increasing, each of them had inevitably a much smaller window of
visibility on the market, and it became vital for a title to catch quickly and
effectively the eye of the public. Summaries were not good at that. They
were good at describing a book in isolation: but when it came to standing
out in a crowded marketplace, short titles were better—much easier to
remember, to begin with (but not only). That’s why long titles disappeared: because between the size of the market, and the length of titles, a
strong negative correlation emerged: as the one expanded, the other contracted. Nothing much had changed, in the length of titles, for a century
and a half, as long as the production of novels had remained stable around
Novel,” “A Neapolitan Tale”—and also, sure enough, “A Novel Without a Hero.”
This said, since my choices may strike some readers as, not merely subjective, but perverse,
figure 6 charts the length of titles as they appear in the bibliographical sources, without any
intervention on my part. As a comparison with figure 1 shows, the general trend does not
change much: the decline in length is slightly less dramatic (the median being quite higher for
the first forty years, and then stabilizing around seven to eight words rather than six), but
equally evident.
139
FIGURE
6.
FIGURE 7.
Additional source: 1700 –39: A Check List of English Prose Fiction, 1700 –1739, ed.
William Harlin McBurney (Cambridge, Mass., 1960).
The chart stops in 1836 because it seems very likely that Andrew Block’s bibliography
significantly overstates the number of novels published after that date.
Critical Inquiry / Autumn 2009
FIGURE 8.
Additional source: English Prose Fiction, 1600 –1700: A Chronological Checklist, ed.
Charles C. Mish (Charlottesville, Va., 1967).
As long as only a few novels per year are published, the median length of titles keeps
oscillating between ten and forty–fifty words; after the first rise of the 1720s and 1730s, however,
it drops below twenty, and below ten during the late-eighteenth century take-off first noticed by
Clifford Siskin. Earlier on, more ephemeral publishing spurts (1655– 60; the 1680s) had also
coincided with a marked drop in the length of titles.
five or ten per year; then, as soon as publishing took off in earnest, titles
immediately shrank (fig. 8). By 1790, their “quantitative” transformation
was virtually complete.5
The market expands, and titles contract. Figure 8 shows the temporal
correlation of the two processes; a closer look at the market, adds a specific
causal relationship. Because “market,” in the late eighteenth century—
5. The other type of title that disappeared in the late eighteenth century was the “titlecompilation,” like the 1772 The Egg, Or the Memoirs of Gregory Giddy, Esq: With the
Lucubrations of Messrs. Francis Flimsy, Frederick Florid, and Ben Bombast. To which are Added
Private Opinions of Patty Pout, Lucy Lucious, and Priscilla Positive. Also the Memoirs of a Right
Honourable Puppy. Or Bon Ton Display’d: Together with Anecdotes of a Right Honourable
Scoundrel. Conceived by a Celebrated Hen, and Laid Before the Public by a Famous Cock-feeder.
Just as summaries drew the reader’s attention to the multiplicity of episodes along the
diachronic axis, compilations foregrounded a “horizontal” proliferation of perspectives,
characters, and locations—a naı̈ve, picaresque-like poetics of “variety” (to use a keyword of the
age), at the very moment when novelistic structure was becoming tighter and more
homogeneous. Out of step with the times, summaries and compilations became even more
unimaginable in the nineteenth century.
141
142
Franco Moretti / Style, Inc.
when readers almost never bought novels—really means: circulating
libraries. Commercial enterprises, which disseminated the novel throughout Britain (and France, and Germany: one of Brecht’s early plays, In the
Jungle of Cities, opens in one of these libraries), and whose catalogues have
frequently survived until today. Catalogues: lists of titles. But not quite the
same titles we find in Raven and Garside. In Sander’s library, in 1780s
Derby, Capacity and Extent of the Human Understanding; Exemplified in
the Extraordinary Case of Automathes: A Young Nobleman; who was Accidentally left in his Infancy, upon a desolate Island, and continued Nineteen
Years in that solitary State, separate from all Human Society. A Narrative
abounding with many surprising Occurrences, both Useful and Entertaining
to the Reader, becomes: History of Automathes, A Young Nobleman. At
Phorson’s, in Berwick, in 1790, Unfortunate Sensibility; or, the Life of Mrs
L*****. Written by Herself. In a Series of Sentimental Letters. Dedicated to
Mr. Yorick, in the Elysian Fields becomes Unfortunate Sensibility. At Sael’s,
in the Strand, in 1793, Emmeline, the Orphan of the Castle becomes Emmeline. And so on.
A coded message, in a market situation. And the key institution of the
market takes the code, and compresses it: typically, to a proper name. Libraries couldn’t waste space on a catalogue page; they didn’t want any
confusion between this novel and that; the spine of the book had only
room for a few words anyway; and then, readers were getting used to
novels, and needed less “guidance” from titles.6 So, the average length
6. If everything was really pushing towards shorter titles— observed Sam Bowles during a
discussion of this paper—shouldn’t these be “rewarded” by the cultural ecosystem, and be on
average more successful than other types? Yes, they should; and since James Raven has already
identified which of the fourteen hundred novels published between 1770 and 1799 had been
reprinted at least five times by 1829, I compared the length of these sixty-five titles to the
median for their years, fully expecting them to be significantly shorter; see Raven, “Historical
Introduction: The Novel Comes of Age,” in Garside et al., The English Novel, 1770 –1829: A
Bibliographical Survey of Prose Fiction Published in the British Isles, 2 vols. (Oxford, 2000), 1:40.
That, however, turned out not to be the case: thirty-two of the titles were indeed shorter than
the median, but twenty-nine were longer (at times, much longer), and four were exactly the
same length.
What these results seem to suggest is that—although a crowded market does exert a strong
negative pressure against long titles—it remains relatively neutral once a certain length has been
reached: it prohibits at one end of the spectrum, but it does not prescribe at the opposite one.
Comparative work in other European traditions should provide additional evidence on this
matter; meanwhile, and more anecdotally, a look at some canonical British novelists is as
inconclusive as the wider bibliographical investigation. If Edgeworth and Austen use much
shorter titles than their contemporaries, and Fielding, Smollett, and Burney remain slightly
below the median, Richardson and Radcliffe behave in an average way, while Scott and Galt and
Dickens often enjoy playing with extremely long titles (which, by their time, are a quaintly
obsolete choice): Tales of My Landlord, Collected and Arranged by Jedediah Cleishbotham,
Schoolmaster and Parish-Clerk of Gandercleugh; The Annals of the Parish; or, The Chronicle of
Critical Inquiry / Autumn 2009
decreased, long titles disappeared, and, at the opposite end of the spectrum, titles with only one, two, or three words multiplied rapidly (fig. 9):
they were 5 percent in the 1740s and 50s, but by 1800 they were already
around 20 –30 percent, and had completely traded places with the long
titles which had been their predecessors (fig. 10). It’s the same thing that
happened in advertising a hundred years later, when the detailed descriptions of the nineteenth century were replaced by the evocative oblique
brevity of today’s ads; literally the same thing: title pages with long summaries of novels were often used as flyers, and pasted around to advertise
a book. But short titles, as we will see, were not just better titles—they were
better ads, too.
Titles allow us to see a larger literary field, I said at the beginning of this
article; and the first thing we see in this larger field, at this moment in
history, is the force of the market: how its growth creates a major constraint on the presentation of novels. This of course doesn’t mean that all
titles gave the same answer to the pressure of the market; but it does mean
that they all had to face the same question: How could one shorten a
message—without losing information? There was a lot of information in
summaries: what happened to it? Was it— gone? reformulated? replaced
by something else? I will return to this in a moment; now let me close this
first section by acknowledging a limit of this article: I began by showing the
average length of titles, but I then shifted to very long and very short
titles—and I did so because these trends are much more dramatic than the
slow decline of the average, and thus also much easier to talk about. Which
is not exactly wrong (after all, those trends are real!), but, even aside from
a question of completeness— of the seven thousand titles in the study,
around nine hundred are long, sixteen hundred short, and forty-five hundred somewhere in between—the focus on extremes misses a decisive aspect of quantitative work: what really counts, here, are not a few major and
rapid changes, but many small and slow ones. But the trouble is, we literary
historians don’t really know how to think about what is frequent and small
and slow; that’s what makes it so hard to study the literary field as a whole:
Dalmailing; During the Ministry of the Rev. Micah Balwhidder. Written by himself; Dealings with
the Firm of Dombey and Son, Wholesale, Retail and for Exportation.
Now, if neither “successful” nor “canonical” novelists took the lead in shortening titles, then,
inevitably, someone else must have done so: writers who—as we will see in the next section—
were neither particularly popular, nor especially good. Perhaps, once the literary system had
started moving in a certain direction, some developments were so inevitable that they didn’t
require any special talent. Or perhaps—as suggested in footnote 12 below—in this case the key
variable was not literary, but political.
143
9 . “On the twenty-seventh evening, ‘Nanine,’ by M. de Voltaire, was performed.
‘Nanine’? asked so-called critics when this piece first appeared in 1749. What sort of a title is
that? What idea does that give us? Nothing more and nothing less than a title should. A title
must be no bill of fare. The less it betrays of the contents, the better it is. It is better for both
poet and spectator. The ancients rarely gave to their comedies any other than insignificant
titles” (G. E. Lessing, Hamburg Dramaturgy, trans. Helen Zimmern [New York, 1962], p. 53).
FIGURE
FIGURE
10.
Critical Inquiry / Autumn 2009
we must learn to find meaning in small changes and slow processes—and
it’s difficult. Especially so, in the case of titles: which are by definition the
most public part of a book, hence the most subject to censorship: what we
find in titles reflects the “legitimate irradiation” of existing ideas, wrote
Jean-Louis Flandrin, and it’s true, titles are so “respectable”; and again,
how do you make respectable messages interesting?7
2
Very short titles: one, two, or three words. Where the question that
interests me is, How can a couple of words stand in for hundreds of pages?
What does it mean, that they should do so? For summaries, it’s clear: they
are scaled-down versions of the whole story. Two words? So, I started
looking at these short titles, and found three main clusters within the
group: proper names (Octavia; George Barnwell), which make up around
one-third of the total; the article-noun (The Steam-Boat; The Smuggler)
and article-adjective-noun combinations (The Tuscan Vase; The Invisible
Gentleman) just below 30 percent; and conceptual abstractions (Fatality;
Enthusiasm not Religion) around 10 percent. “A large change in size inevitably carries with it a change of form,” wrote J. B. S. Haldane, and here one
sees how right he was: a title with twenty words and one with two are not
the same creature, one larger and one smaller; they are different animals
altogether. Different styles. There is a “less is more” elegance to short titles—Persuasion; Emma; Mansfield Park—that was unthinkable in summaries; there, the aim was to squeeze as many things as possible into the
front page—more is more, as it were—and if the title turned out to be a
7. Jean-Louis Flandrin, “Sentiments et civilization: Sondage au niveau des titres
d’ouvrages,” Annales 20 (Sept.–Oct. 1965): 939; my trans. In a follow-up article I will indeed
study the “average title” of these 110 years, taking as a starting point the formula in “or”
(Pamela, or Virtue Rewarded; Vensenshon; or, Love’s Mazes; Manfrone; or, The One-Handed
Monk). There are over two thousand such titles in the database, most of which use between
three and fifteen words, thus occupying exactly the middle of the field. To get a sense of the
morbid diffusion of or in eighteenth-century titles, let me just say that it is the fourth most
frequent word of the database, following the, of, and a (and preceding and!); by contrast, in
Elizabeth Gaskell’s North and South, or is the forty-fourth most frequent word; in Our Mutual
Friend, the fifty-fifth.
Aside from quantitative reasons, the formula in or is important because it codified the form
of the “double” title, where the second (on the right of the or), is an explication of the first:
Waverley, that is to say, events of sixty years ago; Pamela, a story in which virtue is rewarded.
Here, we are clearly beyond the title as summary, though not quite yet in the world of Belinda
or Persuasion: as if the or were a sort of afterthought—a hiccup: Maybe one word is not really
enough for a title, let’s add something else, just to be sure. A compromise formation that
coexisted first with summaries, then with short titles, the formula in or thus mediated between
explanatory and intuitive strategies; but as readers became more comfortable with allusion, it
lost its raison d’être. By 1900, it had become a thing of the past.
145
146
Franco Moretti / Style, Inc.
FIGURE
11.
mess, so be it: Robinson Crusoe’s mentioned an episode that doesn’t even
appear in the novel (An Account how he was at last as strangely deliver’d by
PYRATES: pyrates? what pyrates?)—it didn’t really matter. But a short title
is a delicate structure, sensitive to every small change. Consider the articlenoun, and article-adjective-noun combinations: similar forms, similar semantic horizon—The Monk, 1796; The New Monk, 1798 —and so at first I
assumed that the adjective wouldn’t change much: the monk and the new
monk: big deal; the adjective would specify the noun, as adjectives do, but
no more than that. And instead, it turns out that the adjective does not
specify the semantic field; it transforms it. In the article-noun combination, half of the titles describing a social type evoke an exotic-transgressive
field—The Fakeer, The Vampyre, The Fire-eater, The Pirate, The SabbathBreaker, The Spectre, The Rebel, The Epicurean, The Mussulman, The Libertine, The Parricide. . .—and only a small minority evokes the idea of the
familiar (wife, brother, father, daughter, and so on). But when an adjective
is added to the title, the ratio is exactly reversed (fig. 11): fakeers and libertines drop from 50 to 20 percent, while wives and daughters rise from 16 to
40 percent: The Unfashionable Wife, The Discarded Daughter, The Infidel
Father, The Rival Brothers, The Posthumous Daughter, The False Friend, The
Maniac Father, and so on. Without adjectives, we are in a world of adventures; with adjectives, in a destabilized domesticity. The adjective is the
only change, but it changes everything. And of course, once you think
about it, it makes sense: if all that is in the title is a noun, then that noun
must guarantee an interesting story all by itself, and vampires and parri-
Critical Inquiry / Autumn 2009
cides are a very good choice; but if an adjective is present, then even the
most familiar figures can be estranged into infidel fathers and posthumous
daughters. The adjective relocates narrative from substance to accident, as
it were. And again, it makes sense: the adjective introduces predication
within the title, and predication is the germ of storytelling. The wife is a
stable quantity; the unfashionable wife is a question mark: why is she unfashionable? what does her husband think? her daughters? This is why
short titles are so interesting: they are on the border: between two and three
words lies the invisible barrier that separates storytelling from—something else, which we’ll see in a minute.
Common nouns are frequent, in short titles, but proper names are even
more frequent, especially at the turn of the century (fig. 12), when one title
in twelve (1786 –90), then one in ten (1791–95), then almost one in seven
(1796 –1800), consists of a proper name, and nothing else: Emily; Henry;
Georgina. The growth of the market forced titles to become shorter, and, as
we saw in circulating libraries’ catalogues, proper names were a great way
to do so: one word, and a novel was immediately singled out from the rest.8
Singled out, by pointing to its protagonist; a choice which was not inevitable— of the “six masterpieces” of the Chinese canon, for instance, none
was ever shortened to a proper name, because none had a name in the title
to begin with— but which has been typical of European narrative since
Greek and medieval times (probably, because in our tradition the central
character has always played a greater role). And, of course, in the late
eighteenth century, protagonist mostly means female protagonist (figs.
13–14): a woman’s name, and often just a first name (figs. 15–16): Lucy,
Caroline, Belinda, Emma. . . Heroines who lack a last name: a very simple,
very crude hint, typical of the British marriage plot (which reaches its apex
in these decades): they lack a husband. But the wider field charted in figures 13 through 16 also shows how quickly the gender asymmetry was
reversed in the 1820s and 1830s, and how frequent the heroine’s last name
could actually be. In both cases, the main changes were almost certainly
caused by shifts in the system of genres: the historical novel’s rise to prominence after 1815, for instance, with its mostly male heroes; or the marriage
plot becoming embedded within genres like the bildungsroman and the
industrial novel, where the heroine acquired a public life, which was
promptly mirrored in titles like Jane Eyre or Mary Barton. Again, see
how much can be done with how little, in short titles: one word, and the
image of the heroine rotates 180 degrees: from private, to public. Short
8. Needless to say, different names—Evelina, Mary, and Moll; Edward, Tom, and Dick—
evoked very different semantic associations: a great topic for further study.
147
1 2 . “If the Name . . . is a sign, it is a voluminous sign, a sign always pregnant and
crammed full of meanings that no use can reduce or flatten. . . . It is immune from any kind of
selective restriction, and the syntagm in which it is located is a matter of indifference to it. In a
certain sense, the name is thus a semantic monstrosity” (Roland Barthes, “Proust et les noms,”
Le Degré zero de l’écriture, suivi de nouveaux essays critiques [Paris, 1972], pp. 125–26; my trans.).
FIGURE
FIGURE
13.
FIGURE 14.
If one looks at the entire period in question, and at all titles (not only very
short ones), men’s names actually outnumber women’s by about 10 percent, probably
because more novelistic subgenres focused on a male protagonist, and many of them—
most travel narratives, nautical tales, later “Irish” novels, war stories, Newgate novels,
many satirical and farcical forms—were extremely unlikely to choose a female protagonist.
That the Emma-type of title is the one that, however, immediately comes to mind when
thinking of proper names in titles, is due to its exceptional power of allusion, and to the
centrality of the marriage plot in the history of the English novel.
FIGURE
15.
150
Franco Moretti / Style, Inc.
FIGURE 16.
As for the findings in figure 14, that female protagonists are more often
indicated by their full name than by their first name is one of the surprises of this study. But it
should also be remembered that the century under investigation witnessed the transition from
the old aristocratic (and often French) form of the proper name—Rosa de Montmorien,
Caroline of Lichtfield, Eloise de Montblanc—to its newer, “bourgeois” (and British) incarnation
in Alice Lemington, Margaret Graham, or Rachel Ashburn. The golden age of the marriage plot
(and of the type of title dominated by first names) seems to fall in between these two alternative
ways of placing a female protagonist within a family structure.
titles were a constraint imposed by the market, yes, but the constraint
could also be a fantastic opportunity for the literary imagination: the
art of allusion, of condensation: the title as trope, ultimately. Odd twist:
the market promoting—style.
The market expanded, titles contracted; by 1790, as we have seen, the
issue of length had been settled, and didn’t really change for at least
sixty years. But something else did change, between 1790 and 1850, and
the last type of title I will discuss in this section—abstractions—will
help us to understand what. Abstractions were usually a single word
(Generosity, Indiscretion, Independence, Delusion), or a conceptual pair
(Liberality and Prejudice; Jesuitism and Methodism), and although they
were never very frequent, in the first quarter of the century, and especially in the 1820s, they were not insignificant, thanks largely to the
tireless Barbara Hofland, who in the five years from 1823 to 1827 published, one after the other, Integrity, Decision, Patience, Moderation,
Reflection, and Self-Denial. And as you read these titles you realize that
abstractions here really mean— ethics. Nineteenth-century ethics; previously, abstractions had often emphasized moral violations (Disobedience, Indiscretion, Fatality, Retribution, False Gratitude, The Relapse,
Critical Inquiry / Autumn 2009
Conscious Duplicity. . .), but after 1800 it is the construction of the ethical that is highlighted: Self-Control, Conduct, Discipline, Correction,
Decision, Reformation. Morality not as purity, but as work: one takes
one’s own self and transforms it, in a process that is both spiritual and
pragmatic. Hofland’s Moderation, wrote the Monthly Review in 1825, is
“fabricated . . . to . . . strongly enforce a precept in morals of great
practical utility”;9 and that moral precept fabricated for practical utility
is great—it’s really the dawn of Victorianism.
When titles were summaries, they of course used verbs (The misfortunes
in which this young woman has been cruelly involved, and so on); but once
summaries disappear, so do verbs (aside from the occasional Says She to
Her Neighbour, What?), and titles like Patience or Moderation are the logical endpoint of the process: titles that sound more and more like nominal
sentences. A grammatical form that “places the utterance beyond all temporal or modal localization and beyond the subjectivity of the speaker,”
wrote Émile Benveniste in his classic analysis of this type of sentence:10
beyond subjectivity, beyond temporal localization . . . the telos of nominal
sentences is the abolition of contingency: they don’t describe a situation,
Benveniste again, they posit an absolute.11 Self-Control; Patience; Integrity:
they don’t describe a situation, not even in the minimal way of maniac
fathers and unfashionable wives; they don’t allude to what happens in the
novel, or to where and when it takes place; they posit an absolute, and that
absolute is of course the meaning of the novel. This was the great historical
achievement of abstractions: they made titles meaning-ful: nothing but
meaning, as if the essence of the novel had been distilled and purified of all
narrative contingency. And readers, faced with this type of title, have to
change their expectations: the first thing they are told about the novel asks
them to imagine, not so much a story, but the point of the story: the point
of the story as a single, unifying concept. And this is important. That titles
became short is interesting, yes, but in the end, so what? That by becoming
short they adopted a signifying strategy that made readers look for a unity
in the narrative structure—this is a perceptual shift which has persisted for
two hundred years. And mediocre conservative writers did more to make
it happen than anyone else.12
9. Review of Moderation by Hofland, Monthly Review 108 (Sept. 1825): 88.
10. Émile Benveniste, “The Nominal Sentence,” Problems in General Linguistics, trans.
Mary Elizabeth Meek (1966; Coral Gables, Fla., 1971), p. 138.
11. See ibid., p. 142.
12. Why them? Perhaps, because there was much in common between the conservative
reaction to the French Revolution (for which basic social values had to be preserved from
historical transformation), and the type of titles I am discussing here (for which fundamental
ethical absolutes had to be freed from narrative relativization).
151
152
Franco Moretti / Style, Inc.
I have discussed abstractions next to proper names, because they both
make for very short titles; but, clearly, their relationship to plot is completely different: proper names are a part of the story, whereas abstractions
are an interpretation of it. It would be tempting to say that names have a
metonymic relationship to the novel, and abstractions a metaphoric one;
but if characters’ names (and the—rarer—place names like Minerva Castle
or Mansfield Park) are indeed metonymies of the plot, abstractions are not
quite metaphors,13 and in fact it is curious how few metaphors are there, in
these seven thousand titles.14 By the end of the century they are everywhere
(The Belly of Paris; The Doll; Ghosts; The Octopus; Heart of Darkness; The
Beast in the Jungle), so they must have taken root sometime in the third
quarter of the nineteenth century, and the glimpses one gets suggest a lot of
hesitation on the part of writers: Gaskell shifting at the last minute from
Margaret Hale to North and South (proper name to metaphor); Dickens
doing the opposite, from Nobody’s Fault to Little Dorrit. Announcing a
story with a metaphor must have seemed strange—and it is strange: if
abstractions are removed from the plot, then metaphors are twice removed: interpretations that require an interpretation, as it were. But it is
precisely this “difficulty” of metaphors that holds the secret of the title-asad. Eighteenth-century summaries told readers a lot of things about the
novel, yes; but they never really engaged their intelligence. And instead, by
puzzling and challenging readers, metaphors induced them to take an
active interest in the novel from the very first word. If you are trying to sell
a product, that’s exactly what you want.
Summaries, adjectives, proper names, nominal sentences, metonymies,
metaphors. In a minute I will turn to articles (and am thinking of sections
on conjunctions and participles). This is a quantitative study: but its units
are linguistic and rhetorical. And the reason is simple: for me, formal
analysis is the great accomplishment of literary study, and is therefore also
what any new approach— quantitative, digital, evolutionary, whatever—
must prove itself against: prove that it can do formal analysis, better than
13. Nor are they allegories or personifications: Hofland’s Moderation is not meant to come
alive and be part of a story like its homonym in the 1669 History of Moderation; or, The Life,
Death and Resurrection of Moderation: together with her Nativity, Country, Pedigree, Kindred,
Character, Friends, and also her Enemies.
14. It’s only at the very end of the period that they begin to appear: Loss and Gain (1848),
Rough and Smooth (1849), Shadows and Sunshine, Flies in Amber, and The Swan’s Egg (1850). In
general, if the years between 1790 and 1830 see the establishment of metonymies and
abstractions, no further novelties seem to emerge between 1830 and 1850: instead of looking for
new forms of brevity, writers seem to devote their best energies to the second title, as if that
were the key to the problem: Helen Halsey. A Tale of the Borders. A Romance of Deep Interest;
The Slave Captain; A Legend of Liverpool; Goals and Guerdons: Or, The chronicles of a life. By a
very old lady; Rebecca and Rowena. A Romance Upon Romance.
Critical Inquiry / Autumn 2009
we already do. Or at least: equally well, in a different key. Otherwise, what
is the point?
3
As the market expands, titles contract; as they do that, they learn to
compress meaning; and as they do that, they develop special “signals” to
place books in the right market niche. “Had I, for example, announced in
my frontispiece, ‘Waverley, a Tale of other Days,’ must not every novelreader have anticipated a castle scarce less than that of Udolpho. . . . A
‘Sentimental Tale’ would . . . have been a sufficient presage of a heroine
with a profusion of auburn hair. . . . ‘A Tale of the Times’ [would] have
demanded from me a dashing sketch of the fashionable world.”15 Tale of
other Days, Sentimental Tale, Tale of the Times: that these words would
make readers think of specific genres is of course true—and trivial: it’s
obvious. The code may be in the market, but it remains transparent. And
instead, the interesting cases are the opaque ones: where the signal works,
and we somehow know what kind of a novel we have in our hands, but we
don’t know why we know it, because it is all conveyed by traits that escape
our attention; “subliminal,” as we used to say.
Let me illustrate this point with two genres—the so-called anti-Jacobin
and New Woman novels—that are separated by a hundred years:16 two
explicitly ideological genres, which rely heavily on contemporary politics,
and whose titles have thus a lot in common— except for one detail. Among
anti-Jacobin titles, 36 percent begin with the definite article (The Banished
Man, The Medallion, The Parisian, The Democrat) and 3 percent with the
indefinite; a result which is perfectly aligned with the rest of the field, since
at the time the overall frequencies are thirty-eight and two.17 New Woman
titles, no; the definite article is obviously still present, in 24 percent of the
cases, but the use of the indefinite leaps from 2, or 3, to 30 percent of the
cases (fig. 17).
Now, this is odd, not only because it is completely out of scale with
anything else I have found, but because in many other ways the conventions of the two genres are quite similar. The democrat; A bluestocking:
two well-known figures of the contemporary political scene; why is the
15. Scott, Waverley, pp. 33, 34.
16. See the bibliographies included in M. O. Grenby, The Anti-Jacobin Novel: British
Convervatism and the French Revolution (Cambridge, 2001), and Ann L. Ardis, New Women,
New Novels: Feminism and Early Modernism (New Brunswick, N.J., 1990).
17. In the New York Times best-seller list of November 2008, 38 percent of the titles began
with the definite article, and 6 percent with the indefinite: not that different from two centuries
earlier.
153
154
Franco Moretti / Style, Inc.
FIGURE
17.
article different? The infidel father; A hard woman; the same grammar, the
same dissonance between adjective and noun; why is the article different?
What do the articles do, that they need to be different? An essay by Harald
Weinrich offers an answer; for Weinrich, the starting point to understand
linguistic categories is always the text, and, since all texts are linear, “there
are two main directions in which the attention of the listener/reader may
be directed”: backwards, or forwards: backwards, towards what we already
know from the text, and forwards, towards what we don’t.18 And the simplest way to alert the reader’s attention is—articles: the definite article
announcing a noun as something that we already know (thus directing our
attention backwards); and the indefinite suggesting the opposite: Take
heed, here comes something that you haven’t encountered yet. The first
time the wolf appears in Little Red Riding Hood it is a wolf; afterwards, the
wolf, forever. So: A Girton Girl, A Hard Woman, A Mummer’s Wife, A
Domestic Experiment, A Daughter of Today, A Semi-detached Marriage:
what the article says is that we are encountering all these figures for the first
time; we think we know what daughters and wives are, but we actually
don’t, and must understand them afresh. The article announces the novel
as a challenge to received knowledge. And instead, the democrat, the Par18. Harald Weinrich, “The Textual Function of the French Article,” in Literary Style: A
Symposium, trans. Seymour Chatman et al., ed. Chatman (Oxford, 1971), p. 226.
FIGURE
18.
FIGURE
19.
156
Franco Moretti / Style, Inc.
isian, the infidel father. We know these people! Anti-Jacobin titles don’t
want to change received ideas, they want to use them: the French Revolution has multiplied your enemies— beware.
Here is a modest example of what quantitative stylistics could do: take
those units of language that are so frequent that we hardly notice them, and
show how powerfully they contribute to the construction of meaning.19
Which is also the point of my last example: a formula that, at first sight,
looks as flat and uninspiring as could be: The Duchess of York, The Novice of
Corpus Domini, The Heir of Montgomery Castle: let’s call it the x of y. As
figure 18 shows, the formula has always been quite frequent in titles, never
dropping below 10 percent of the total; but around 1800 its frequency
increases, and if we look more closely at those decades, we find that the
surge does not occur evenly everywhere, but is almost entirely concentrated in a single genre, which is the gothic. There, the x of y appears three
times more often than in the rest of the corpus (fig. 19), which is too big a
difference to be the product of chance, especially since something very
similar also occurs within the gothic itself: we all know that the word castle
was the shibboleth of the genre’s imagination, from The Castle of Otranto
onwards; well, in gothic titles the x of y occurs three times more often than
castle.
But why? Castles in gothic titles, it makes sense. The x of y? Here semantics helps; if we look at the x in the formula, we find that romance appears
in 7 percent of the cases (The Romance of the Pyrenees), a cluster of genre
indicators like mysteries, horrors, secrets, adventures in 13 percent (The
Horrors of Oakendale Abbey), personal nouns in 34 percent (Emmeline, or
the Orphan of the Castle), and space nouns in 41 percent of the total (fig.
20): from The Castle of Otranto in 1764 to The Mines of Wielitzka and The
Rock of Glotzden a half century later. So, in three fourths of the cases the x
of y specifies an x that is either a person or a space. And when we move
from the subject of the formula to its predicate—from the x to the y—what
we find is so striking that I don’t even need a graph to point it out: The
Romance of the Pyrenees, The Horrors of Oakendale Abbey, The Orphan of
the Castle, The Castle of Otranto, The Mines of Wielitzka, The Rock of Glotzden . . . in 82 percent of the cases, the y is a space: a person defined by a
space, or, most frequent of all, a space defined by another space. The Castle
of Otranto: a spatial noun specified by a place name.
There are many intriguing traits to gothic titles—this is the genre that
19. The model here remains John Burrows’s analysis of Austen’s characters’ styles in
Computation into Criticism (Oxford, 1987); that he did it twenty years ago, without the help of
today’s technology, puts us all to shame.
Critical Inquiry / Autumn 2009
FIGURE
20.
discovers that readers like villains, for instance, and shamelessly parades
them in titles— but space is really the cornerstone of the convention: place
names are much more frequent than human proper names; spatial nouns
like castle, abbey, forest, cave, and so on show up in 50 percent of the cases;
and there are even other kinds of geographical signals, like A Sicilian Romance or The Danish Massacre. Nothing is as typical of gothic titles as this
fixation with space; and of course this is true not just of titles, but of gothic
novels: where space is dark, labyrinthine, cold; it imprisons, it terrifies, it
kills. The x of y takes this power of space, and activates it at two scales at
once: human, and geographical. The Castle of Otranto: there is a building;
there is a town; they are both gothic. Escape from the castle, you’re still in
southern Italy. There is no way out.
“Literature is the fragment of fragments,” wrote Goethe in Wilhelm
Meister’s Journeyman Years, or the Renunciants, the great sad novel of his
old age: “the least part of all that ever happened and was spoken was
written down, and of what was written only the least part has survived.”20
“Of this history we possess the last volume alone,” wrote Darwin in The
Origin of Species, “of this volume, only here and there a short chapter has
20. Johann Wolfgang von Goethe, Wilhelm Meister Journeyman’s Years, or the Renunciants,
trans. Krishna Winston, ed. Jane K. Brown, vol. 10 of Goethe’s Collected Works (New York,
1989), p. 302.
157
158
Franco Moretti / Style, Inc.
been preserved; and of each page, only here and there a few lines.”21 There
are differences, of course, between the history of nature and that of culture:
the “fossils” of literary evolution are often not lost, but carefully preserved
in some great library, like most of those seven thousand novels whose titles
I have discussed here; but for the purposes of our knowledge, it’s as if they
too had crumbled into dust, because we have never really tried to read the
entire volume of the literary past. Studying titles is a small step in that
direction.
21. Charles Darwin, On the Origin of Species (Cambridge, Mass., 1964), pp. 310 –11.

Documentos relacionados