Jakatón 2016 Segundo hackatón de Procesamiento de Lenguaje Natural en México
Semana de Tecnologías del Lenguaje Humano
Hotel Villas Arqueológicas en San Andrés Cholula, Puebla
29 y 30 de septiembre de 2016

Presentación


El Jakatón es un espacio para que entusiastas del lenguaje y la computación se junten a construir una solución a problemas que involucren el tratamiento del lenguaje.

Esta promueve el uso de técnicas y herramientas de PLN, lingüística computacional y programación para crear una primera versión de un sistema que se enfoque al español.

Podrán participar equipos de dos estudiantes registrados en un programa académico y que llenen la solicitud de registro antes del 18 de septiembre que será evaluada por el comité. En esta ocasión hay pocos espacios por lo que si no quedas seleccionado no dejes de seguirnos en twitter y facebook porque seguimos trabajando y pronto tendremos noticias para ti.

Si buscas ideas de qué proyectos realizar puedes revisar la página de la edición 2015 dónde hay varios ejemplos de proyectos. También ponemos a tu disposición una lista de datasets y herramientas en español que puedes usar para desarrollar tu proyecto.

Patrocinadores


Solicitud de registro


Para solicitar tu registro llena la siguiente forma antes del 18 de septiembre:

Solicitud

Recursos


Datasets

Nombre Descripción
'Tuits' irónicos Corpus de 'tuits' etiquetados a mano como irónicos o no
CIEMPIESS 17 horas de programas de radio con conversaciones espontáneas, sus transcripciones y ambiente de experimentación para el sistema de reconocimiento CMU-Sphinx.
CORCODE Corpus de contextos definitorios. Con varias opciones de búsqueda, pero no tiene posibilidad de exportar resultados.
Tesis en latín Cuenta con un calculador de similitud textual.

Herramientas

Nombre Descripción
Concordancias Es un buscador de concordancias para cualquier corpus que sea subido a través de GECO. Puede exportar resultados a csv.
Fonetica2 Library v2 La librería fonetica2 contiene funciones para transcribir palabras en español fonetica y fonológicamente.
GECO Gestor de corpus. Para subir documentos, tiene varias ventajas como que al subir PDF automáticamente los convierte a texto y los etiqueta.
HTK-BENCHMARK Permite utilizar el sistema de reconocimiento HTK casi de la misma manera que el sistema CMU-SPHINX3 y con los mismos archivos de entrada.
List Score flask Servidor de 'scoring' de análisis de sentimiento
POS flask Servidor de etiquetación POS usando NLP Core
MoSyn API Esta herramienta provee una librería de Python que ayuda en el análisis morfológico de texto escrito en español.
Servicio Freeling Servicio Freeling via una api web, para tokenizar, etiquetar y parsear

Organizadores


Instituciones