L’Aina impulsarà la llengua al món digital
El govern català ha presentat aquest desembre l’Aina, un projecte que pretén situar el català en el món digital al mateix nivell que altres llengües globals com ara l’anglès. El projecte, que té un pressupost de 15,5 milions d’euros i es finançarà amb els fons europeus NextGenerationEU, arrencarà amb una aportació inicial del Departament de Polítiques Digitals de 250.000 euros i tindrà com a primer objectiu crear un corpus lingüístic perquè les empreses que creen aplicacions basades en intel·ligència artificial, com ara assistents de veu, traductors automàtics, agents conversacionals, etc, puguin fer-ho fàcilment en català, segons ha explicat el conseller de Polítiques Digitals, Jordi Puigneró.
El Centre de Supercomputació de Barcelona (BSC), la instal·lació on hi ha el superordinador Mare Nostrum, ja disposa d’un primer corpus textual del català de 1.770 milions de paraules, reunides en 95 milions de frases, amb les diferents variants dialectals i de registre. Aquest corpus, el més gran que s’ha fet mai de la llengua catalana, s’ha obtingut a base de descarregar textos de diferents fonts digitals (webs, arxius…), netejar-los i esborrar duplicitats. La Generalitat de Catalunya ha proveït tota la informació de les seves pàgines web i del Diari Oficial de la Generalitat (DOGC), fet que ha suposat el 33% de tots els continguts descarregats. La Corporació Catalana de Mitjans Audiovisuals aportarà, a més, tot el seu repositori documental.
Amb tota aquesta informació, el següent pas serà entrenar xarxes neuronals multicapa perquè aprenguin el català i generin models de la llengua, de la parla i per a la traducció. Aquests models seran les bases sobre les quals es podran desenvolupar aplicacions basades en intel·ligència artificial com assistents de veu, predictors i correctors lingüístics, xatbots, aplicacions de resum automàtic, cerques intel·ligents, aplicacions per a l’anàlisi de sentiments o motors de traducció i subtitulació automàtica, entre d’altres. Tots els models que crearà el BSC estaran a disposició de totes les empreses o entitats que les vulguin fer servir, ja que es publicaran en obert. [Font: Diari de la Llengua]