El Corpus textual informatitzat de la llengua catalana (CTILC) és un projecte de llarg abast que l'Institut d'Estudis Catalans inicià l'any 1985. El corpus començà a constituir-se com la primera fase d'un projecte anomenat Diccionari del català contemporani (DCC), destinat a orientar l'activitat lexicogràfica futura de la Secció Filològica de l'IEC d'acord amb els progressos científics i metodològics de la lexicografia moderna i amb les possibilitats que la tecnologia ha anat posant a disposició dels estudis sobre la llengua.
El projecte CTILC s'ha desenvolupat en dues fases:
- Entre 1985 i 1997 es va constituir una primera versió del corpus de més de 52 milions de mots, formada per textos publicats entre 1832 i 1988. Aquest corpus fou utilitzat com a font d'informació en la redacció del "Diccionari descriptiu de la llengua catalana" (DDLC), ja completada.
- A partir de 2015, l'IEC emprengué un projecte per a la continuació del CTILC mitjançant la incorporació de nous textos de 1989 ençà, amb criteris de classificació i de selecció textuals anàlegs als aplicats en la part prèviament constituïda del corpus. L'objectiu final d'aquest projecte de continuació és anar incorporant successivament nous textos al corpus, de manera que es redueixi al mínim indispensable el decalatge entre els darrers textos del corpus i el moment present.
Arran de l'inici de la segona fase de desenvolupament del corpus, hom constituí una nova aplicació de consulta, concebuda des de bon principi sobre la base de la integració en el conjunt dels recursos que la Secció Filològica de l'IEC té actualment en línia. Mitjançant aquesta aplicació, el CTILC es pot consultar a partir de diferents opcions, que corresponen als apartats de
concordances,
col·locacions i
dades numèriques.
En l'apartat principal
concordances es poden obtenir resultats sobre els següents elements:
a)
lema: aquesta opció ens mostra les concordances d'un o més lemes (un
lema és un mot en tant que entitat abstracta que agrupa una sèrie de formes, més o menys coincident amb allò que solem anomenar
entrada de diccionari: PODER
m, PODER
v, POT
m, etc.)
b)
forma: aquesta consulta ens mostra les concordances d'una o més formes (una
forma és un mot en tant que manifestació concreta d'un lema en el discurs:
poder s,
poders p [del lema PODER
m];
poder if,
pots 2pi,
pot 3pi, etc. [del lema PODER
v];
pot s,
pots p [del lema POT
m], etc.)
c)
lema (amb formes): aquesta consulta ens permet veure els resultats, seleccionats a partir del lema, agrupats per forma, i seleccionar les formes concretes amb què volem treballar.
d)
coocurrències: a diferència de les opcions anteriors, la consulta per coocurrències ens permet combinar diversos elements de selecció i obtenir-ne les concordances; així , per exemple, seguint les indicacions que es donen a la pàgina web corresponent, l'usuari pot formular una cadena d'elements determinada, i obtenir-ne les aparicions al corpus.
e)
noms propis: aquesta opció ens mostra les concordances d'un o més noms propis obtinguts a partir de criteris de selecció gràfica; un
nom propi tant fa referència a una persona (
Piero Pirelli) com a una empresa (
Pirelli), a un topònim (
Torrelles de Foix), a un accident geogràfic (
Foix), etc.
Els resultats del CTILC obtinguts mitjançant la selecció pels criteris anteriors es poden filtrar per autor, títol, any de publicació, tipus (literari/no literari), modalitat textual (original/traducció) i varietat territorial.
A més d'aquests elements de selecció, l'aplicació també permet obtenir dades sobre la
coaparició de lemes en el corpus. Seleccionant l'apartat
col·locacions de l'aplicació, i introduint el lema corresponent, l'aplicació de consulta ens retorna les dades relatives als lemes que hi coapareixen en l'àmbit (a esquerra i dreta) especificat en la consulta.
El CTILC és actualment un corpus en creixement constant, de manera que s'hi van incorporant textos cada vegada més pròxims al moment present. A mesura que els grups cronològics del corpus es van completant, passen a formar part del corpus consultable públicament. El volum present del corpus i dels seus diferents factors de classificació pot veure's en l'apartat
dades numèriques de l'aplicació.
Complementàriament a la consulta textual i quantitativa del CTILC, l'apartat
autors/obres permet l'accés a totes les referències textuals dels documents, tant en forma de quadre com de llista de registres bibliogràfics. Els paràmetres de selecció són: autor, títol, any de publicació, tipus (literari/no literari), modalitat textual (original/traducció) i varietat territorial.
D'acord amb el que estipula la normativa de propietat intel·lectual vigent, algunes de les obres incorporades al Corpus Textual Informatitzat de la Llengua Catalana (CTILC) han passat a ser de domini públic i poden ser descarregades lliurement per a ús privat o de recerca. L'opció de menú
descàrregues permet recuperar en format editable aquests textos. La llista s'actualitza regularment amb les obres que deixen d'estar sotmeses a drets d'autor.