Descripción

El objetivo de este tutorial es motivar y presentar la nube de datos lingüísticos enlazados (Linguistic Linked Open Data, ver: http://linguistic-lod.org/), y mostrar ejemplos de aplicaciones y herramientas que permiten su descubrimiento y explotación en aplicaciones de la Web Semántica.
En los últimos años, el crecimiento exponencial en la publicación de datos enlazados (Linked Data) ha planteado varios retos entre los que destaca la multilingualidad. Por una parte, cada vez son más numerosos los recursos que se publican en la nube de datos enlazados descritos o documentados en lenguas diferentes del inglés. Dichos recursos se tienen que enlazar con otros del mismo dominio que posiblemente están descritos en otras lenguas. Por otra parte, el interés de utilizar estos recursos en aplicaciones de procesamiento de lenguaje natural aumenta la necesidad de enriquecerlos con información lingüística (morfosintáctica, terminológica, pragmática, etc.) en la misma lengua o en otras lenguas distintas de la lengua en la que inicialmente se ha descrito el recurso.

Este ha sido el punto de arranque de la nube de datos lingüísticos enlazados, un subconjunto de la nube de datos enlazados que contiene recursos lingüísticos representados según el formato de los datos enlazados. La posibilidad de publicar recursos lingüísticos según este formato no sólo facilita el enriquecimiento de los datos enlazados con información lingüística monolingüe o multilingüe, sino que además permite desarrollar aplicaciones que exploten dicha información lingüística.

En este tutorial presentaremos la nube de datos lingüísticos enlazados y los modelos más comunes de representación de recursos lingüísticos en RDF. Destacaremos el papel que ha desempeñado el proyecto europeo LIDER (Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe – support Action FP7-ICT-2013-10) en la creación de la nube de datos lingüísticos enlazados (Linguistic Linked Open Data Cloud) y su impacto en las aplicaciones destinadas al análisis de contenido. Presentaremos los modelos de representación lingüística para la web de datos, que permiten representar información lingüística con respecto a una ontología o vocabulario de datos enlazados, o enriquecer dicho recurso con información lingüística en tantas lenguas como sea necesario. Además, en dos sesiones prácticas, demostraremos el valor añadido de los datos lingüísticos enlazados con herramientas y aplicaciones que explotan dichos datos, o que ayudan a su lexicalización o traducción.

Contenidos y Agenda

  •  Sesión introductoria: La nube de datos lingüísticos enlazados (Linguistic Linked Open Data) y modelos de representación de información lingüística (multilingüe) en la web de datos.
    • El proyecto LIDER EU
    • Linguistic Linked Open Data Cloud (http://linguistic-lod.org/llod-cloud)
    • lemon (The Lexicon Model for Ontologies)-lemon-Ontolex
  • Tiempo: 30 min.
  • Ponente: Elena Montiel Ponsoda
  • Sesión práctica: Aplicaciones y herramientas sobre datos lingüísticos enlazados
    • LingHub – agregación de metadatos de recursos lingüísticos en la Web
    • Terminesp, Apertium RDF: experiencias en la generación de datos lingüísticos enlazados
    • BabelNet, BabelFy, datos.bne y otros ejemplos de uso de datos lingüísticos enlazados
  • Tiempo: 40 min.
  • Ponente: Jorge Gracia/ Julia Bosque Gil

 

  • Sesión práctica: Lexicalización semiautomática de ontologías y vocabularios con Lemonade Tools
    • lemon assistant
    • Leire (lemon link remover)
  • Tiempo: 40 min.
  • Ponente: Mariano Rico

 

  • Preguntas y debate: 15 min.

 

Materiales

Las transparencias de la presentación se podrá descargar en este enlace [MATERIAL]. Se habilitará un navegador Web para seguir la sesión.

 

Audiencia

Este tutorial va dirigido a investigadores tanto en el campo de la inteligencia artificial y la web semántica como en el campo de la lingüística computacional y el procesamiento de lenguaje natural con interés en los datos enlazados.

 

Ponentes

Julia Bosque Gil es estudiante de doctorado en el Ontology Engineering Group del Departamento de Inteligencia Artificial de la Universidad Politécnica de Madrid desde octubre de 2014. Obtuvo el grado en Lingüística Germánica y Filología Inglesa por la Universidad Humboldt de Berlín, y un MA en Lingüística Computacional por la Universidad de Brandeis, EEUU. Durante el grado trabajó en las áreas de sintaxis, semántica formal y representación del discurso. Se inició en el procesamiento de lenguaje natural y anotación de textos durante su estancia en Brandeis. En su trabajo de fin de máster, dirigido por el profesor James Pustejovsky, propone un nuevo esquema de anotación semántica aplicado a imágenes. Actualmente trabaja en la representación de recursos lingüísticos como datos lingüísticos enlazados (LLD).

 

Jorge Gracia del Río es investigador postdoctoral en el Ontology Engineering Group del Departamento de Inteligencia Artificial de la Universidad Politécnica de Madrid. Es licenciado en ciencias físicas y doctor en informática por la Universidad de Zaragoza. Entre 2004 y 2009 desarrolló su trabajo docente e investigador en la Universidad de Zaragoza, en el grupo de Sistemas de Información Distribuidos. Ha sido investigador visitante en el Knowldege Media Institute (Open University, Reino Unido), INRIA (Grenoble, Francia) y Università di Roma “La Sapienza” (Italia). Su investigación se enmarca en el campo de la Web Semántica, abarcando temas de ontology matching, descubrimiento de sentidos, desambiguación semántica y, más recientemente, el multilingüismo en la Web Semántica y la generación de recursos lingüísticos como datos enlazados en la Web.

 

Elena Montiel Ponsoda es Profesor Contratado Doctor del Departamento de Lingüística Aplicada de la Universidad Politécnica de Madrid (UPM), y miembro del Ontology Engineering Group (2006). Es licenciada en Traducción e Interpretación, Universidad de Alicante (2000), B.Sc. en Interpretación Técnica, Hochschule Magdeburg-Stendal, Alemania (2003), y doctora en Lingüística Aplicada (2011) por la UPM. Ha realizado estancias de investigación en el DFKI (Alemania), en el NLP Group de la Universidad de Sheffield (Reino Unido) y en el AG Semantic Computing Group de la Universidad de Bielefeld (Alemania). Su investigación se encuentra en la intersección entre la traducción y la terminología, y la representación de conocimiento, e incluye: lexicalización y localización de ontologías, patrones léxico-sintácticos, modelos funcionales para análisis semántico, análisis de sentimientos y datos lingüísticos enlazados.

<

Mariano Rico es doctor en Ingeniería Informática y Telecomunicación (UAM, 2009) y licenciado en CC. Físicas (UAM, 1992). De 1992 a 2003 fue ingeniero de I+D y jefe de proyectos en prestigiosos centros de investigación públicos y privados. En el periodo 2003-2013 fue profesor en la Escuela Politécnica Superior de la UAM. Actualmente es investigador Juan de la Cierva en el Ontology Engineering Group (UPM). Sus intereses incluyen Linked Data, tecnologías de la Web Semántica, la interacción persona-ordenador y el procesamiento del lenguaje natural. Pertenece al comité de internacionalización de DBpedia y es el creador y responsable de DBpedia del español (es.dbpedia.org), el núcleo de los datos enlazados en español. Es colaborador habitual del Semantic Computing Group de la Universidad de Bielefeld.

 

Referencias

  • Applying the OntoLex Model to a Multilingual Terminological Resource. Bosque-Gil, J., Gracia, J., Aguado de Cea, G., Montiel-Ponsoda, E. En actas del workshop Multilingual Semantic Web 2015, en el marco de la conferencia European Semantic Web Conference (ESWC2015), en Eslovenia.
  • Lemonade: A web assistant for creating and debugging ontology lexica. M. Rico and C. Unger. 20th International Conference on Applications of Natural Language to Information Systems (NLDB2015), Springer LNCS 9103, pp. 448-452.
  • Multilingual dictionaries and the web of data. J. Gracia. Kernerman Dictionaries News, 23: 1-4.
  • datos. bne. es: A library linked dataset. Vila-Suero, D., Villazón-Terrazas, B., & Gómez-Pérez, A. Semantic Web Journal, 2012. http://datos.bne.es/
  • Publishing Linked Data on the Web: the Multilingual Dimension. Vila-Suero, D., Gómez-Pérez, A., Montiel-Ponsoda, E., Gracia, J., Aguado-de-Cea, G. En: uitelaar, P. and Cimiano, P. (Eds.) Towards the Multilingual Semantic Web, Springer, 2014, pp. 31-47.
  • Challenges for the Multilingual Web of Data. J. Gracia, E. Montiel-Ponsoda, P. Cimiano, A. Gómez-Pérez, P. Buitelaar, J. McCrae. In Journal of Web Semantics, Elsevier, 2011, pp. 63-71.
  • Interchanging Lexical Resources on the Semantic Web. J. McCrae, G. Aguado-de-Cea, P. Buitelaar, P. Cimiano, T. Declerck, A. Gómez-Pérez, J. Gracia, L. Hollink, E. Montiel-Ponsoda, D. Spohr, T. Wunner. In Journal of Language Resources and Evaluation, 46, Issue 4, 2012, pp. 701-719.
  • BabelNet: Building a very large multilingual semantic network. Navigli, R., & Ponzetto, S. P. In Proceedings of the 48th annual meeting of the association for computational linguistics, Association for Computational Linguistics, 2010, pp. 216-225. http://babelnet.org/
  • Multilingual word sense disambiguation and entity linking for everybody. Moro, A., Cecconi, F., & Navigli, R. Proceedings of ISWC (P&D), 2014 25-28. http://babelfy.org/
  • DBpedia spotlight: shedding light on the web of documents. Mendes, P. N., Jakob, M., García-Silva, A., & Bizer, C. In Proceedings of the 7th International Conference on Semantic Systems, ACM, 2011, pp. 1-8. http://spotlight.dbpedia.org/
  • Linked Data in Linguistics. Chiarcos, C., Nordhoff, S., & Hellmann, S. Heidelberg: Springer, 2012, pp. 161-179.

 

Ilustraciones de la ciudad de Albacete cedidas por Alicia Gosalbez
Copyright © 2019 Conferencia CAEPIA 2015