24 noviembre, 2015

Herramientas lingüísticas

En esta sección compartimos una selección de recursos de software para la extracción y gestión de terminología y para la creación y análisis de corpus.


Herramientas para la extracción de terminología

ApSIC Xbench ofrece un control de calidad y una gestión terminológica sencillos y potentes en un solo paquete. Solo tiene que cargar archivos en cualquiera de las docenas de formatos CAT compatibles. Es de pago pero permite descargar una versión de prueba de 30 días.

ExtPhr32. Extracts fue creado por Timothy C. Craven; se trata de un programa gratuito pero no de código abierto. ExtPhr32 extrae cada palabra y cada frase, hasta un determinado número de palabras, que aparezca al menos un número mínimo de veces en un archivo de texto fuente. Puede obtenerse aquí.

ExtPhr32

  • Herramientas TAO para la extracción de terminología

En la actualidad, numerosas herramientas de traducción asistida por ordenador (TAO) incorporan sistemas para la gestión de la terminología, dada su importancia en el proceso de traducción. Algunos ejemplos son:

    • memoQ memoQ es un sistema de traducción asistida por computadora para el sistema operativo Microsoft windows. En este enlace, memoQ explica el funcionamiento de su sistema de gestión de terminología. Una de sus extensiones, QTerm, también está diseñada para la gestión de terminología.
    • MultiTerm MultiTerm es una herramienta de gestión de terminología, desarrollada por SDL Plc (SDL fue comprada por RWS). Proporciona una solución para almacenar y gestionar terminología multilingüe.
  • Ngram Statistics Package

Este programa de software libre identifica combinaciones estables de palabras (colocaciones) en textos escritos, utilizando diferentes técnicas de asociación. El usuario será quien elija el tipo de relación que quiere establecer entre los términos seleccionados. Puede descargarse aquí.

OneClick Terms es un potente extractor de términos en línea con capacidades de extracción de términos monolingües y bilingües. Está impulsado por la tecnología de extracción de términos de Sketch Engine. Permite extraer terminología en un solo idioma o a partir de un documento bilingüe ya alineado.

  • TBXTools

TBXTools es una herramienta gratuita de extracción automática de terminología que implementa métodos lingüísticos y estadísticos para la extracción de términos multipalabra. La herramienta permite a los usuarios identificar  términos multipalabra a partir de corpus especializados y también, si es necesario, candidatos a la traducción a partir de corpus paralelos (Oliver, Vàzquez, 2015). Descargable desde este enlace.

Desde esta página web podemos extraer terminología a partir de texto plano; no permite subir archivos. Podemos elegir el formato de salida (HTML, JSON, XML, TEXT o PHP) y nos devolverá el número de veces que aparece cada palabra.

TermSuite es un software desarrollado en la Universidad de Nantes, por el laboratorio de investigación LS2N, UMR 6004 CNRS. TermSuite extrae terminología monolingüe y genera diccionarios bilingües. Los idiomas cubiertos son: inglés, francés, italiano, alemán, español, letón, chino y ruso.

Sitio web demo de la API de extracción terminológica. La extracción de terminología está disponible en los siguientes idiomas: inglés, francés e italiano.

  • Terminology Extraction Suite (TES)

Esta herramienta de extracción terminológica gratuita y de código abierto, antes conocida como Linguoc Lexterm, fue creada por miembros de la Universidad Oberta de Catalunya. Permite, a través del análisis de un corpus, extraer terminología bilingüe y monolingüe que podremos incorporar posteriormente a nuestra memoria de traducción. Al tratarse de un programa de extracción de tipo estadístico, nuestros resultados serán más acertados cuanto mayor sea el corpus textual del que dispongamos. El traductor, de forma manual, podrá seleccionar aquellos términos que son más relevantes y establecer las equivalencias correspondientes. Puede descargarse aquí.


Desde este enlace se pueden acceder a otros recursos de extracción de terminología ofrecidos por la Unidad de Coordinación de Terminología del Parlamento Europeo.

Herramientas para la gestión de terminología

Desde el centro de terminología de la lengua catalana (TERMCAT) se presenta la herramienta GesTerm que, según explican en su página web oficial, se trata de un gestor de terminología creado con software libre y descargable. Está pensado para la creación de fichas terminológicas y de diccionarios, el mantenimiento de la información asociada a dichas fichas y diccionarios, la realización de búsquedas avanzadas y la generación de listados imprimibles.

GesTerm

  • TermBase de ForeignDesk

TermBase es un programa de gestión que forma parte del entorno de traducción integrado de código abierto ForeignDesk desarrollado en 2002 por Lionbridge. De entre sus funciones destacan, entre otras, la creación de bases de datos terminológicas multilingües para su consulta posterior y la importación y exportación de datos a otras bases de datos como Trados Multiterm. Este programa también permite añadir o eliminar información relativa a los términos que componen la base de datos y crear nuevas bases de datos a partir de otras ya existentes. Puedes descargarlo aquí.

Si lo que necesitas es estructurar información, crear o editar mapas conceptuales para mostrar la relación entre distintos campos de conocimiento y sus términos, estas herramientas de código abierto pueden ser muy útiles. Permiten establecer relaciones jerárquicas, crear esquemas, diagramas etc., a través de modelos predeterminados o mediante los tuyos propios.

FreeMind

Tutorial

Manual de usuario

Tutorial

También están disponibles otros programas como CMap Tools que comparten las funciones de los otros dos anteriormente descritos y, aunque sigue siendo gratuitos, no son de código abierto.

  • TheW32

Con este freeware, creado por Tim Craven, podrás diseñar, modificar e imprimir tesauros. El programa posee la opción de definir los tipos de relaciones existentes entre términos, así como ordenarlos alfabéticamente o estructurarlos en forma de árbol. Este programa ya no se actualiza pero sigue estando disponible para descarga aquí.

TheW32

Herramientas de creación y análisis de corpus lingüísticos
  • BootCat Frontend

BootCat Frontend, creada por un grupo de lingüistas de la Universidad de Bolonia (Forlì) y Trento, permite elaborar de forma sencilla corpus textuales a través de información contenida en la red. Para ello, es necesario señalar e introducir unas palabras clave denominadas Seeds, esto es, terminología propia del ámbito en el que estemos trabajando. Se trata, igualmente, de una aplicación de código abierto y gratuita, por lo que se puede descargar libremente desde la página web del proyecto.

BootCaT

Wiki del proyecto

Manual de uso

CorpusCatcher es un conjunto de herramientas para recopilar corpus. Puede ayudar a construir corpus de idiomas o temas específicos a partir de recursos web disponibles públicamente. Esto puede ser muy útil para muchos propósitos, especialmente para datos con la finalidad de construir correctores ortográficos. Está escrito en Python. Desde este enlace podrás acceder a GitHub donde se alojan los archivos necesarios para descargar y trabajar con CorpusCatcher.

CorpusSearch puede utilizarse para encontrar estructuras sintácticas determinadas en un corpus textual o como herramienta para la creación de corpus.

Manual de usuario

  • IMS Open Corpus Workbench

IMS Open Corpus Workbench (CWB) es un conjunto de herramientas encargadas de gestionar y consultar corpus de gran extensión (de 10 millones a 2 billones de palabras). Puede obtenerse aquí.

Manual de usuario

  • AntConc

Este freeware permite realizar un análisis de las concordancias y de los contextos en los que aparece una palabra o grupo de palabras concretos así como crear listas de palabras más frecuentes y listas de palabras clave. AntConc puede leer los archivos txt, html, htm y xml y puede descargarse gratuitamente desde la página web de su creador, Laurence Anthony.

AntConc

Tutorial

Manual de usuario

Voyant Tools es una herramienta en línea que permite analizar textos y extraer información como cuáles son las palabras más frecuentes del texto cargado, la densidad del vocabulario, el promedio de palabras por oración, nube de palabras… También permite crear corpus lingüísticos.

  • WeBoCa

WeBoCa es una aplicación en Java más avanzada que JBootCat, la herramienta de Java de BootCat que permitía al usuario extraer corpus de textos de internet, encargada de crear corpus textuales extraídos de distintos motores de búsqueda de la web y procesar la información obtenida de forma que el usuario pueda manipular el corpus obtenido como más le convenga. La herramienta permite definir parámetros de búsqueda terminológica adicionales, guardar direcciones URL, establecer un número de palabras mínimo y máximo en tus búsquedas y generar listas de frecuencia entre otras otros. Para más información, esta es la página web del proyecto donde se detalla el uso de la herramienta y desde donde se puede descargar.

WeBoCa

  • Text STAT Simple Text Analysis Tool

Text STAT es un programa de análisis textual que se encarga de editar o crear corpus de textos en distintos formatos y extraer contenido de internet (en formato HTML). Esta aplicación genera listas de frecuencia de palabras, establece concordancias y nos proporciona datos como el número de párrafos, de frases y de palabras de las que consta nuestro corpus. Puedes descargarlo en español aquí y desde aquí.

Text STAT

Tutorial

Manual de usuario

Otras programas para la creación y el análisis de corpus que pueden ser de utilidad son: Manatee and Bonito, TXM, Natural Language Toolkit o Xara.

En esta página web se han recopilado unas 250 herramientas empleadas para el análisis de corpus y que han sido compiladas por Kristin Berberich e Ingo Kleiber. Están clasificadas según su función: tokenización, fraseología, n-gramas, etiquetado morfológico, etc.

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información. Más información

ACEPTAR
Aviso de cookies