El Corpus textual informatitzat de la llengua catalana (CTILC) és un projecte de llarg abast que l'Institut d'Estudis Catalans inicià l'any 1985. El corpus començà a constituir-se com la primera fase d'un projecte anomenat Diccionari del català contemporani (DCC), destinat a orientar l'activitat lexicogràfica futura de la Secció Filològica de l'IEC d'acord amb els progressos científics i metodològics de la lexicografia moderna i amb les possibilitats que la tecnologia ha anat posant a disposició dels estudis sobre la llengua.
El projecte CTILC s'ha desenvolupat en dues fases:
- Entre 1985 i 1997 es va constituir una primera versió del corpus de més de 52 milions de mots, formada per textos publicats entre 1832 i 1988. Aquest corpus fou utilitzat com a font d'informació en la redacció del "Diccionari descriptiu de la llengua catalana" (DDLC), ja completada.
- A partir de 2015, l'IEC emprengué un projecte per a la continuació del CTILC mitjançant la incorporació de nous textos de 1989 ençà, amb criteris de classificació i de selecció textuals anàlegs als aplicats en la part prèviament constituïda del corpus. L'objectiu final d'aquest projecte de continuació és anar incorporant successivament nous textos al corpus, de manera que es redueixi al mínim indispensable el decalatge entre els darrers textos del corpus i el moment present.
Arran de l'inici de la segona fase de desenvolupament del corpus, hom constituí una nova aplicació de consulta, concebuda des de bon principi sobre la base de la integració en el conjunt dels recursos que la Secció Filològica de l'IEC té actualment en línia. Mitjançant aquesta aplicació, el CTILC es pot consultar a partir de diferents opcions, que corresponen als apartats de
concordances,
col·locacions i
dades numèriques.
En l'apartat principal
concordances es poden obtenir resultats sobre els següents elements:
a)
lema: aquesta opció ens mostra les concordances d'un o més lemes (un
lema és un mot en tant que entitat abstracta que agrupa una sèrie de formes, més o menys coincident amb allò que solem anomenar
entrada de diccionari: PODER
m, PODER
v, POT
m, etc.)
b)
forma: aquesta consulta ens mostra les concordances d'una o més formes (una
forma és un mot en tant que manifestació concreta d'un lema en el discurs:
poder s,
poders p [del lema PODER
m];
poder if,
pots 2pi,
pot 3pi, etc. [del lema PODER
v];
pot s,
pots p [del lema POT
m], etc.)
c)
lema (amb formes): aquesta consulta ens permet veure els resultats, seleccionats a partir del lema, agrupats per forma, i seleccionar les formes concretes amb què volem treballar.
d)
coocurrències: a diferència de les opcions anteriors, la consulta per coocurrències ens permet combinar diversos elements de selecció i obtenir-ne les concordances; així , per exemple, seguint les indicacions que es donen a la pàgina web corresponent, l'usuari pot formular una cadena d'elements determinada, i obtenir-ne les aparicions al corpus.
A més d'aquests elements de selecció, l'aplicació també permet obtenir dades sobre la
coaparició de lemes (o de formes) en el corpus. Seleccionant l'apartat
col·locacions de l'aplicació, i introduint el lema corresponent, l'aplicació de consulta ens retorna les dades relatives als lemes que hi coapareixen en l'àmbit (a esquerra i dreta) especificat en la consulta.
El CTILC és actualment un corpus en creixement constant, de manera que s'hi van incorporant textos cada vegada més pròxims al moment present. A mesura que els grups cronològics del corpus es van completant, passen a formar part del corpus consultable públicament. El volum present del corpus i dels seus diferents factors de classificació pot veure's en l'apartat
dades numèriques de l'aplicació.