Herramientas lingüísticas

Software para la extracción automática de terminología, creación y análisis de córpora, gestión terminológica.

EXTRACCIÓN AUTOMÁTICA DE TERMINOLOGÍA

  • Terminology Extraction Suite (TES)

    Esta herramienta de extracción terminológica gratuita y de código abierto, antes conocida como Linguoc Lexterm y creada por la Universidad Oberta de Catalunya, nos permite, a través del análisis de un corpus, extraer terminología bilingüe y monolingüe que podremos incorporar posteriormente a nuestra memoria de traducción. Al tratarse de un programa de extracción de tipo estadístico, nuestros resultados serán más acertados cuanto mayor sea el corpus textual del que dispongamos. El traductor, de forma manual, podrá seleccionar aquellos términos que son más relevantes y establecer las equivalencias correspondientes. Puede descargarse aquí.

    Manual de uso

  • ApSIC Xbench

Herramienta integrada cuyo objetivo es ofrecer una visión clara y estructurada de la terminología de referencia de cualquier proyecto de traducción. Este producto admite varios formatos de entrada. ApSIC Xbench ofrece una visión cómoda y unificada de la información bilingüe, que el usuario puede organizar en prioridades según sea necesario. Actualmente ApSIC Xbench 2.9 está en fase de prueba de la versión beta. HAGA CLIC AQUÍ PARA DESCARGARLO AHORA.

  • Ngram Statistics Package

    Este programa de software libre identifica combinaciones estables de palabras (colocaciones) en textos escritos, utilizando diferentes técnicas de asociación. El usuario será quien elija el tipo de relación que quiere establecer entre los términos seleccionados. Puede descargarse aquí.

  • ExtPhr32. Extracts

    ExtPhr32. Extracts no es un programa de software libre, sino Freeware, es decir, gratuito pero no de código abierto, que puede ser de utilidad para la traducción, ya que permite la extracción de terminología y fraseología que aparece un número mínimo de veces en un texto concreto. Puede obtenerse aquí.

    ExtPhr32

  • TTC TermSuite

    TTC TermSuite es una aplicación de código abierto creada por el proyecto europeo TTC Terminology Extraction, Translation Tools and Comparable Corpora. Este proyecto aboga por el desarrollo de la traducción automática, la traducción asistida por ordenador y las herramientas de gestión de contenido multilingüe a través de la extracción automática de la terminología en corpus comparables. Puede descargase desde este enlace.

    TermSuite

    Manual de uso


 

CREACIÓN Y ANÁLISIS DE CÓRPORA

  • BootCat Frontend

    BootCat Frontend, creada por un grupo de lingüistas de la Universidad de Bolonia (Forlì) y Trento, permite elaborar de forma sencilla corpus textuales a través de información contenida en la red. Para ello, es necesario señalar e introducir unas palabras clave denominadas Seeds, esto es, terminología propia del ámbito en el que estemos trabajando. Se trata, igualmente, de una aplicación de código abierto y gratuita, por lo que se puede descargar libremente desde la página web del proyecto.

    BootCaT

    Wiki del proyecto

    Manual de uso

  • CorpusCatcher

    Esta herramienta está pensada para ayudar al traductor a crear corpus con material disponible en Internet.CorpusCatcher puede ser especialmente útil para la creación de correctores ortográficos. Desde este enlacepodrás descargar y aprender a utilizar este programa.

  • CorpusSearch

    CorpusSearch puede utilizarse para encontrar estructuras sintácticas determinadas en un corpus textual o como herramienta para la creación de corpus. Puede descargarse aquí.

    Manual de usuario

  • IMS Open Corpus Workbench

    IMS Open Corpus Workbench (CWB) es un conjunto de herramientas encargadas de gestionar y consultar corpus de gran extensión (de 10 millones a 2 billones de palabras). Puede obtenerse aquí.

    Manual de usuario

  • AntConc

    Este freeware permite realizar un análisis de las concordancias y de los contextos en los que aparece una palabra o grupo de palabras concretos así como crear listas de palabras más frecuentes y listas de palabras clave. AntConc puede leer los archivos txt, html, htm y xml y puede descargarse gratuitamente desde la página web de su creador, Laurence Anthony.

    AntConc

    Tutorial

    Manual de usuario

  • WeBoCa

    WeBoCa es una aplicación en Java más avanzada que JBootCat, la herramienta de Java de BootCat que permitía al usuario extraer corpus de textos de internet, encargada de crear corpus textuales extraídos de distintos motores de búsqueda de la web y procesar la información obtenida de forma que el usuario pueda manipular el corpus obtenido como más le convenga. La herramienta permite definir parámetros de búsqueda terminológica adicionales, guardar direcciones URL, establecer un número de palabras mínimo y máximo en tus búsquedas y generar listas de frecuencia entre otras otros. Para más información, esta es la página web del proyecto donde se dan más detalles sobre el uso de la herramienta y desde donde se puede descargar.

    WeBoCa

  • Text STAT Simple Text Analysis Tool

    Text STAT es un programa de análisis textual que se encarga de editar o crear corpus de textos en distintos formatos y extraer contenido de internet (en formato HTML). Esta aplicación genera listas de frecuencia de palabras, establece concordancias y nos proporciona datos como el número de párrafos, de frases y de palabras de las que consta nuestro corpus. Puedes descargarlo en español aquí.

    Text STAT

    Tutorial

    Manual de usuario

Otras programas en relación con la creación y el análisis de corpus que pueden ser de utilidad son: Manatee and Bonito, TXM, Natural Language Toolkit o Xara.


GESTIÓN TERMINOLÓGICA

  • GesTerm

    Desde el centro de terminología de la lengua catalana (TERMCAT) se presenta la herramienta GesTerm que, según explican en su página web oficial, se trata de un gestor de terminología creado con software libre y descargable. Está pensado para la creación de fichas terminológicas y de diccionarios, el mantenimiento de la información asociada a dichas fichas y diccionarios, la realización de búsquedas avanzadas y la generación de listados imprimibles. Puede obtenerse de forma gratuita en el siguiente enlace.

    GesTerm

  • TermBase de ForeignDesk

    TermBase es un programa de gestión que forma parte del entorno de traducción integrado de código abierto ForeignDesk desarrollado en 2002 por Lionbridge. De entre sus funciones destacan, entre otras, la creación de bases de datos terminológicas multilingües para su consulta posterior y la importación y exportación de datos a otras bases de datos como Trados Multiterm. Este programa también permite añadir o eliminar información relativa a los términos que componen la base de datos y crear nuevas bases de datos a partir de otras ya existentes. Puedes descargarlo aquí.

  • FreeMind/XMind

    Si lo que necesitas es estructurar información, crear o editar mapas conceptuales para mostrar la relación entre distintos campos de conocimiento y sus términos, estas herramientas de código abierto pueden serte muy útiles. Permiten establecer relaciones jerárquicas, crear esquemas, diagramas etc., a través de modelos predeterminados o mediante los tuyos propios. Puedes descargarlas aquí y aquí respectivamente.

    FreeMind

    Tutorial

    Manual de usuario

    XMind

    Tutorial

    Manual de usuario

    También están disponibles otros programas como CMap Tools que comparten las funciones de los otros dos anteriormente descritos y, aunque sigue siendo gratuitos, no son de código abierto.

  • TheW32

    Con este freeware, creado por Tim Craven, podrás diseñar, modificar e imprimir tesauros. El programa posee la opción de definir los tipos de relaciones existentes entre términos, así como ordenarlos alfabéticamente o estructurarlos en forma de árbol. Puedes descargarlo aquí.

    TheW32

    Manual de usuario