Latin American and Iberian Languages Open Corpora Forum
24 September, Canela, Brazil
Room: Colibri – 8:30am to 12:30pm

Program

8:30 – Welcome to OpenCor Forum
Livy Real and Ivan Vladimir Meza Ruiz

8:50 – OBras: a fully annotated and partially human-revised corpus of Brazilian literary works in the public domain
Diana Santos, Claudia Freitas and Eckhard Bick

9:20 – Portuguese Universal Dependencies via Bosque
Valeria de Paiva, Claudia Freitas, Alexandre Rademaker, Livy Real and Fabricio Chalub

9:50 – The Fake.Br corpus – a corpus of fake news for Brazilian Portuguese
Roney L. De S. Santos, Rafael A. Monteiro and Thiago Pardo

10:10 A brief description of SICK-BR
Livy Real, Ana Rodrigues, Andressa Vieira E Silva, Bruna Thalenberg, Bruno Guide, Cindy Silva, Igor C. S. Câmara, Guilherme de Oliveira Lima, Rodrigo Souza and Valeria de Paiva

10:30-11:00 COFFEE BREAK

11:00 – CorPop: a corpus of popular Brazilian Portuguese
Bianca Pasqualini and Maria José B. Finatto

11:30 – Invited talk: Mexican Corpora and their applications
Alfonso Medina Urrea

Mexican Corpora and their applications
Alfonso Medina Urrea, El Colegio de México, Red Temática de Tecnologías del Lenguaje, Mexico

Perhaps the oldest Latin American electronic corpus is the Corpus del español mexicano contemporáneo (CEMC), which was compiled in the seventies for lexicographical purposes. Since then, numerous corpora have appeared in Mexico for very diverse language technologies, like speech recognition, speech synthesis, text mining applications, etc., and for the study of linguistic phenomena in the synchronic and diachronic dimensions. In this talk, several prominent text corpora projects will be described. We will briefly examine their objectives, focused language, structure, tools and resources, context of apparition, and their applications, among other features.

 

Accepted papers

OBras: a fully annotated and partially human-revised corpus of Brazilian literary works in the public domain.
Diana Santos, Claudia Freitas and Eckhard Bick.

The Fake.Br corpus – a corpus of fake news for Brazilian Portuguese.
Roney L. De S. Santos, Rafael A. Monteiro and Thiago Pardo.

Portuguese Universal Dependencies via Bosque.
Valeria de Paiva, Claudia Freitas, Alexandre Rademaker, Livy Real and Fabricio Chalub.

On the Building of the Large Scale Corpus of Southern Qichwa.
Luis Camacho, Rodolfo Zevallos and Nelsi Melgarejo.

Multimedia Corpora of Mexican Sign Language (MSL) with Syntactic Functions.
Obdulia Pichardo-Lagunas and Bella Martinez-Seis.

CorPop: a corpus of popular Brazilian Portuguese.
Bianca Pasqualini and Maria José B. Finatto.

HWxPI: A Multimodal Spanish Corpus for Personality Identification.
Gabriela Ramírez-De-La-Rosa, Esau Villatoro-Tello and Héctor Jiménez Salazar.

A brief description of SICK-BR.
Livy Real, Ana Rodrigues, Andressa Vieira E Silva, Bruna Thalenberg, Bruno Guide, Cindy Silva, Igor C. S. Câmara, Guilherme de Oliveira Lima, Rodrigo Souza and Valeria de Paiva.

The Wixarika-Spanish Parallel Corpus.
Jesús Manuel Mager Hois, Dionico Carrillo and Ivan Vladimir Meza Ruiz.

============================================

Motivation

Recent years have seen a move in Computational Linguistics towards bigger and better, more reliably annotated corpora. However, the existence of such reliably annotated corpora is one of the big bottlenecks for processing natural language. Producing and maintaining corpora is a hard task that most of the time requires sizeable funding and the cooperation of several experts. Although having such corpora available is clearly essential, the many difficulties and the amount of work needed to produce reliable corpora make the process of producing this data and making it available a non-trivial proposition. While “big data” is a trend, producing reliable corpora continues to be an invisible task in Natural Language Processing. Especially when working on languages different from English, on smaller datasets not immediately suitable for machine learning approaches or on a new release of a previous dataset, it is not obvious to the corpora creators how to publish and properly discuss their work. Most of the biggest Natural Language Processing venues are not open to accepting corpora descriptions. The situation is even worse when considering minority languages and endangered languages since most of them do not have a related venue where these works can be discussed. The Latin American and Iberian communities that produce open corpora do not have an established event that would make possible for experts to share ideas, to discuss difficulties and to get feedback on their work. Different meetings have been held in the last years, but either they are not generic enough to embrace all corpora work done in these communities, or there was no continuation or support for future editions. Due to these conditions, it is no rare that groups that share related interests or face the same difficulties are not aware of other groups and their recent work within these communities.
This forum aims both to fill the gap of having a permanent venue for construction, annotation, and maintenance of open corpora for Latin American and Iberian languages and to create an extensive list of these resources. OpenCor welcomes discussions on Portuguese, Spanish, indigenous languages, creoles, Galician, Catalan, Aragonese, Astur-Leonese, Aranese and any other language spoken in Latin America and Iberian countries.  Work on endangered languages, minority, and/or less resourced languages are particularly welcome.

The venue
This is the first edition of OpenCor Forum, an attempt to gather the community that produces, maintains and makes freely available language resources for the large variety of languages spoken in Iberian countries and in Latin America. All accepted works will also be part of the OpenCor list, an initiate to have cataloged open resources produced for the targeted languages.
This forum welcomes, but it is not restricted to, the following topics:
  • releases of new open data sets
  • descriptions of established open corpora
  • guidelines creation, annotation strategies, and best practices discussion
  • corpora maintenance and management
  • corpora curation and assessment
  • corpora design and evaluation
  • corpora creation strategies and difficulties faced by the community
Submission
We invite submissions of anonymized extended abstracts up to 2 pages. Documents must follow the same style as PROPOR 2018 (Springer LNCS) and must be submitted in English. Submissions should begin with an abstract of 200 words or less. Accepted extended abstracts will be made available in the forum web page for a short period. OpenCor is non-archival, therefore works that have been or are planned to be published elsewhere are also welcome.
Authors need to submit together with the extended abstract the link for their resources. One of the goals of OpenCor is to provide a full list of resources and described languages by the end of the forum. We hope this list will be helpful in keeping track of freely available resources for our targeted languages.
Considering that one of the main challenges for these communities is funding raising, all accepted works will be available in the forum page and will appear in the resources list, even if no author can attend the forum. This is an attempt to create an extensive list of open corpora available that does not rely on how much funding the working groups have. In the moment of the submission, authors would be requested if their work should be considered for a talk/poster. We encourage authors that know they won’t be present at the forum but want to have their work in OpenCor List, to send to the organizers a one-page hand-out that will be available to the forum participants during the session.

 

Submission link: https://easychair.org/conferences/?conf=opencor2018

 

Dates
Deadline submission: July 31August 2
Acceptance: August 10
Camera-ready version: September 10
Session: September, 24

Forum Registration
The participation in the forum is free of charge for participants of PROPOR. The fee for attendees who are not participants of the main conference is the Workshop/Tutorial fee. For authors who want to have their resources listed in OpenCor List but are not planning to attend the forum, the submission is free of charge.
Registration Link: http://www.inf.ufrgs.br/propor-2018/registration/

 

Organization
Livy Real – University of São Paulo / GLiC
Ivan Vladimir Meza –  Universidad Nacional Autónoma de Mexico / IIMAS
Program Committee
  • Alfonso Medina Urrea
  • Alexandre Maciel
  • Aline Villavicencio
  • Carlos Daniel Hernández Mena
  • Diana Santos
  • Erick Fonseca
  • Fernanda López
  • Gemma Bel-Enguix
  • Gerardo Sierra
  • Ivan Vladimir Meza Ruiz
  • Jorge García
  • Jose Ramom Pichel
  • Kevin Scannell
  • Livy Real
  • Lucía Golluscio
  • Manuel Mager
  • Maria Jose Bocorny Finatto
  • Néstor Becerra
  • Pablo Gamallo
  • Thiago Pardo
  • Valeria de Paiva
  • Ximena Gutierrez-Vasques
Contact
Any question may be sent to the organizers: livyreal [at] gmail.com; ivanvladimir [at] turing.iimas.unam.mx

 

Foro OpenCor 2018

Foro Latinoamericano e Ibérico de Corpus Abiertos

Motivación

En años recientes el campo de Lingüística Computacional se ha consolidado gracias a la explotación de corpus más grandes, mejores y mejor anotados. La falta de cobertura en los corpus actuales es uno de los cuellos de botella para el procesamiento de lenguaje natural. Por otro lado, producir y mantener dichos recursos es una tarea compleja que muchas veces requiere tiempo, una cantidad considerable de fondos económicos y la cooperación de varios expertos. Esta situación, en la que por un lado necesitamos dichos corpus y por otro lado producirlos con una calidad adecuada y hacerla disponible no es un asunto trivial. Mientras que el “big data” es una tendencia cada vez más en el campo, producir corpus continúa siendo una tarea fuera de los focos en el Procesamiento del Lenguaje Natural, en particular para lenguajes diferentes del inglés. Así, estas lenguas o variantes poseen un menor número de datos a veces no necesariamente suficientes para metodologías de aprendizaje automático u otras. En esta situación es dificultoso publicar y debatir propiamente el trabajo que estos y estas investigadoras realizan. Además, muchos de los eventos más importantes de Procesamiento de Lenguaje Natural no son tan abiertos a descripciones de corpus. Por último, un caso especial es el de las lenguas minoritarias o en peligro de extinción donde tampoco existen demasiados foros donde debatir.
Las comunidades ibéricas y latinoamericanas que producen corpus abiertos tampoco tienen un evento ya establecido en el cual especialistas del área puedan compartir ideas y dificultades, además de obtener un feedback sobre su trabajo. Algunos encuentros especializados han sido celebrados en los últimos años, pero estos no han tenido continuidad o eran muy específicos y no abarcaban a toda la comunidad. Dadas estas condiciones, es común que grupos de países ibéricos y latinoamericanos que comparten intereses y desafíos, no se conozcan o no tengan conocimiento sobre trabajos recién producidos que pueden ser de gran interés.
El Foro OpenCor pretende crear un evento permanente para debatir sobre la producción, anotación y mantenimiento de corpus abiertos para lenguas latinoamericanas e ibéricas, y también crear una lista extensiva para estos recursos. OpenCor acepta trabajos sobre portugués y gallego, español, lenguas indígenas, catalán, aragonés, astur-leones, aranés y cualquier otra lengua hablada en Latinoamérica y en los países ibéricos. Los trabajos sobre lenguas minoritarias, en extinción y/o con pocos recursos son particularmente bienvenidos.

El evento

Esta es la primera edición del Foro OpenCor, una tentativa de agregar la comunidad que produce, mantiene y distribuye corpus abiertos para la gran variedad de lenguas habladas en Latinoamérica y en los países ibéricos. Todos los trabajos aceptados formarán parte de la Lista OpenCor, una iniciativa de catalogar recursos abiertos producidos para esas lenguas.
El evento da la bienvenida, pero no está restringido, a los siguientes temas:
  • Lanzamiento de nuevos corpus abiertos
  • Descripción de corpus abiertos ya establecidos
  • Directivas de creación, estrategias de anotación y mejores prácticas
  • Mantenimiento y manejo de corpus
  • Curación y verificación de corpus
  • Diseño y evaluación de corpus
  • Estrategias de creación de corpus y dificultades enfrentadas por la comunidad

Envío de trabajos

El Foro OpenCor acepta resúmenes extendidos de hasta dos páginas. Los resúmenes deben ser anónimos, en inglés y seguir la guía de estilo del PROPOR 2018. Los envíos deben empezar con un resumen de hasta 200 palabras e incluir el link para el recurso descrito. Los resúmenes aceptados serán publicados en la página del evento durante un breve periodo. OpenCor es no archivable, es decir, son bienvenidos los trabajos ya publicados o a ser publicados y el envío al OpenCor no impide futuras publicaciones. Ya que uno de los objetivos de este evento es crear una lista de recursos abiertos para las lenguas en cuestión, los autores y las autoras deben proporcionar en sus resúmenes el link de acceso a los recursos descritos. Se espera que esta lista ayude a la comunidad a divulgar y dar continuidad a estos corpus.
Como una de las mayores dificultades para las comunidades en cuestión es justamente la financiación, todos los trabajos aceptados estarán disponibles en la página del evento y aparecerán en la Lista OpenCor, independiente de la presencia de los autores y autoras en el día del encuentro. Con esa iniciativa se pretende que todos los grupos, incluso los que no tengan financiación, puedan tener sus recursos disponibles. Al enviar un trabajo, los autores tendrán que indicar si éste debe ser tenido en cuenta para la presentación. También solicitamos a los autores y autoras que no estarán presentes en el día del evento, pero que enviarán sus trabajos para la Lista OpenCor, que manden a los organizadores una presentación de una página que estará disponible para los participantes del evento durante el foro.

Liga para someter trabajos: https://easychair.org/conferences/?conf=opencor2018

Fechas
Envío de resúmenes: Julio 31Agosto 2
Comunicación de aceptación: Agosto 10
Envío de resúmenes: Septiembre 10
Foro: Septiembre 24

Registro al foro

La participación al foro es gratuita para los participantes de PROPOR. El costo para los asistentes que no participan en la conferencia principal es el costo del Taller/Tutorial. Para los autores que quieran su recurso listados en OpenCor List pero que no estén planeando atender el foro, el envió es sin costo.

Liga de registro: http://www.inf.ufrgs.br/propor-2018/registration/

Organización
Livy Real – University of São Paulo / GLiC
Ivan Vladimir Meza –  Universidad Nacional Autónoma de Mexico / IIMAS

Comité del programa

  • Alfonso Medina Urrea
  • Alexandre Maciel
  • Aline Villavicencio
  • Carlos Daniel Hernández Mena
  • Diana Santos
  • Erick Fonseca
  • Fernanda López
  • Gemma Bel-Enguix
  • Gerardo Sierra
  • Ivan Vladimir Meza Ruiz
  • Jorge García
  • Jose Ramom Pichel
  • Kevin Scannell
  • Livy Real
  • Lucía Golluscio
  • Manuel Mager
  • Maria Jose Bocorny Finatto
  • Néstor Becerra
  • Pablo Gamallo
  • Thiago Pardo
  • Valeria de Paiva
  • Ximena Gutierrez-Vasques

Contacto
Cualquier pregunta puede ser enviado a los organizadores: livyreal [at] gmail.com; ivanvladimir [at] turing.iimas.unam.mx

Fórum OpenCor

Fórum Latino-americano e Ibérico de Corpora Abertos

Motivação

Recentemente, a linguística computacional tem utilizado e requerido corpora cada vez maiores e mais rigorosamente anotados. No entanto, ter estes recursos à mão é ainda um dos desafios do Processamento de Linguagem Natural (PLN). Produzir e manter estes corpora é uma tarefa árdua, que na maioria das vezes requer financiamento considerável e cooperação de vários especialistas. Ainda que esse tipo de recursos seja essencial, não é trivial produzir e distribuí-los, dado o trabalho necessário e as várias dificuldades enfrentadas por grupos da área. Enquanto “big data” é a tendência na área, produzir corpora, especialmente abertos, permanece uma tarefa invisível dentro do PLN. Especialmente ao trabalhar com línguas diferentes do inglês, ao produzir conjuntos de dados menores, não imediatamente aplicáveis ao aprendizado de máquina ou, ainda, ao produzir uma nova versão de um recurso já lançado, não é óbvio como discutir e publicar essa produção. A maioria dos grandes eventos de PLN não aceitam descrição de corpora, por exemplo. A situação é ainda mais difícil ao considerar línguas minoritárias ou em extinção, já que nem sempre há eventos relacionados a estas línguas. As comunidades ibéricas e latino-americanas que produzem corpora abertos também não têm um evento já estabelecido no qual especialistas da área possam compartilhar ideias e dificuldades, além de obter retorno sobre seu trabalho. Alguns encontros especializados aconteceram nos últimos anos, mas estes não tiveram continuidade ou então eram muito específicos e não abarcavam toda esta comunidade. Dadas estas condições, é comum que grupos de países ibéricos e latino-americanos não se conheçam ou não estejam cientes de trabalhos recém produzidos, ainda que compartilhem dos mesmos interesses e enfrentem dificuldades parecidas.
O Fórum OpenCor pretende criar um evento permanente para discutir a produção, anotação e manutenção de corpora abertos para línguas latino-americanas e ibéricas, e também criar uma lista extensiva destes recursos. OpenCor aceita trabalhos discutindo português, espanhol, línguas indígenas, galego, catalão, aragonês, asturo-leonês, aranês e qualquer outra língua falada na América Latina e nos países ibéricos. Trabalhos sobre línguas minoritárias, em extinção e/ou com poucos recursos são particularmente bem-vindos.

O evento

Esta é a primeira edição do Fórum OpenCor, uma tentativa de agregar a comunidade que produz, mantém e distribui corpora abertos para a grande variedade de línguas faladas na América Latina e em países ibéricos. Todos os trabalhos aceitos farão também parte da Lista OpenCor, uma iniciativa de catalogar recursos abertos produzidos para essas línguas.
  • O evento recebe trabalhos nas seguintes linhas, embora não seja restrito a apenas estas:
  • lançamento de novos corpora abertos
  •  descrição de corpora já estabelecidos
  •  criação de diretivas, estratégias de anotação e melhores práticas
  •  manutenção e gerenciamento de corpora
  •  correção e verificação de corpora
  •  planejamento e avaliação de corpora
  •  estratégias de criação de corpus e dificuldades enfrentadas pela comunidade

Submissões

O Fórum OpenCor convida submissões de resumos estendidos de até duas páginas. Os resumos devem ser anônimos, em inglês e seguir as diretivas de estilo do PROPOR 2018. Submissões devem começar com um resumo de até 200 palavras e incluir o link para o recurso descrito. Resumos aceitos serão publicados na página do evento por um breve período. OpenCor é non-arquivável, isso é, trabalhos já publicados ou a ser publicados são bem-vindos e a submissão ao OpenCor não impede futuras publicações. Já que um dos objetivos deste evento é criar uma lista de recursos abertos para as línguas em questão, autores devem disponibilizar em seus resumos o link de acesso aos recursos descritos. Espera-se que essa lista ajude à comunidade a divulgar e dar continuidade a estes corpora.
Como uma das maiores dificuldades para as comunidades em questão é justamente financiamento, todos os trabalhos aceitos estarão disponíveis na página do evento e aparecerão na Lista OpenCor, independente da presença dos autores no dia do encontro. Com essa iniciativa pretende-se que todos os grupos, mesmo os sem financiamento, possam ter seus recursos disponibilizados. Ao submeter um trabalho, os autores deverão indicar se este deve ser considerado para apresentação. Pede-se aos autores que não estarão presentes no dia do evento, mas que enviarão seus trabalhos para a Lista OpenCor, que mandem aos organizadores uma apresentação de uma página que será disponibilizada aos participantes do evento durante o fórum.
A participação ao fórum é gratuita para os participantes do PROPOR. Os que participarão apenas do Fórum OpenCor devem se inscrever na modalidade Workshop/Tutorial. Para os autores que desejam ter seus recursos na Lista OpenCor, mas não planejam comparecer ao Fórum OpenCor, a submissão é gratuita.

Submissão: https://easychair.org/conferences/?conf=opencor2018
LaTex stylesheet
MS Word stylesheet
Inscrição

Datas
Envio de resumos: 31 de julho2 de agosto
Aceite: 10 de agosto
Envio de versão final: 10 de setembro
Fórum: 24 de setembro

Organização
Livy Real – University of São Paulo / GLiC
Ivan Vladimir Meza – Universidad Nacional Autónoma de Mexico / IIMAS

Comitê de Programa

  • Alfonso Medina Urrea
  • Alexandre Maciel
  • Aline Villavicencio
  • Carlos Daniel Hernández Mena
  • Diana Santos
  • Erick Fonseca
  • Fernanda López
  • Gemma Bel-Enguix
  • Gerardo Sierra
  • Ivan Vladimir Meza Ruiz
  • Jorge García
  • Jose Ramom Pichel
  • Kevin Scannell
  • Livy Real
  • Lucía Golluscio
  • Manuel Mager
  • Maria Jose Bocorny Finatto
  • Néstor Becerra
  • Pablo Gamallo
  • Thiago Pardo
  • Valeria de Paiva
  • Ximena Gutierrez-Vasques

Contato
Qualquer pergunta pode ser enviada aos organizadores:livyreal [at] gmail.com; ivanvladimir [at] turing.iimas.unam.mx