domingo, 5 de outubro de 2014

PROPOR 2014

 

11th International Conference on Computational Processing of Portuguese - PROPOR 2014 - October 6-9, 2014,


Institute of Mathematical and Computer Sciences (ICMC) at the University of São Paulo (USP) in São Carlos/SP


Long paper: JMorpher: a Finite-State Morphological Parser in Java for Android

Authors: Leonel F. de Alencar, Mardônio França,Katiuscia Andrade,Philipp Costa,Henrique Vasconcelos,Francinaldo Madeira


Abstract:
This paper presents JMorpher, a morphological parsing utility that is implemented in pure Java. It is apparently the first tool of this type that natively runs on Android mobile devices. JMorpher compiles a lexical transducer definition in the AT{\&}T  raw text format, of the type generated by Foma and other open source finite-state packages, into an internal Java representation which is drawn upon to parse input strings. 

Besides the API, JMorpher comprises of a simple graphical interface that allows the user to load a transducer file, type in some text and parse it. An evaluation of results based on two large lexical transducers of Portuguese of different complexity degrees are provided. The implementation was shown to be very efficient on an average desktop PC. 

Although, on an Android smartphone, JMorpher's performance is much lower, it is still suited to the needs of NLP tasks in this environment.



Reference Alencar, Leonel Figueiredo de et. al. JMorpher: a Finite-State Morphological Parser in Java for Android. In: Baptista, Jorge; Mamede, Nuno (Eds.). 11thInternational Conference on Computational Processing of Portuguese, PROPOR 2014. São Carlos, Brazil, October 6-8, 2014. Proceedings. Series Lecture Notes in Computer Science / Subseries Lecture Notes in Artificial Intelligence. Berlin; Heidelberg: Springer, 2014 (to appear)

sexta-feira, 3 de outubro de 2014

Sobre o Complin


Complin Grupo de pesquisa sobre lingüística computacional, lingüística de corpus e gramática gerativa na Universidade Federal do Ceará


Vinculação institucional 


Sediado no Centro de Humanidades da Universidade Federal do Ceará, o grupo CompLin – Computação e Linguagem Natural está vinculado estreitamente ao Curso de Letras, ao Departamento de Letras Estrangeiras e ao Programa de Pós-Graduação em Lingüística, todos integrantes dessa unidade acadêmica, mas congrega também pesquisadores de outras instituições, como, por exemplo, a Universidade Federal do Rio Grande do Sul.



Objetivos

O grupo CompLin – Computação e Linguagem Natural foca a investigação, em nível teórico, dos aspectos computacionais das gramáticas das línguas naturais bem como a aplicação prática desses estudos no desenvolvimento de programas de processamento automático da linguagem humana nos níveis fonológico, morfológico, sintático, semântico e textual, com ênfase em sistemas de tradução automática, os quais integram esses diferentes níveis de processamento, inserindo-se, portanto, na confluência entre a lingüística teórica e descritiva, a lingüística de corpus e a lingüística computacional.


Fundamentação teórica

Lingüística Teórica



A lingüística teórica, no âmbito do paradigma gerativo chomskyano, tem como objeto de estudo a Faculdade da Linguagem, que é parte de nosso patrimônio genético enquanto humanos e responsável, por um lado, pela capacidade inata para adquirir uma língua natural e, por outro, pelas características comuns a todas as línguas, constituindo o arcabouço da Gramática Universal. Sob essa perspectiva, a teoria lingüística é um modelo de parte da cognição humana. As estruturas lingüísticas, que consistem em representações que conjugam uma Forma Lógica (LF, do inglês Logical Form) e uma Forma Fonética (PF, do inglês Phonetic Form), são geradas pela interação de dois módulos da mente: o sistema computacional e o léxico, o primeiro operando sobre itens extraídos do segundo. Nessa teoria, as sentenças consistem de emparelhamentos de LF–PF, os quais constituem, por sua vez, o input para os sistemas articulatório-perceptual e conceptual-intencional, responsáveis, respectivamente, por um lado, pela pronúncia e recepção auditiva, por outro, pela interpretação das sentenças.



Lingüística de Corpus



A lingüística de corpus tem como objetivo a compilação, a anotação e a exploração de corpora, compreendidos como acervos de textos autênticos em linguagem natural disponibilizados de forma eletrônica, utilizando, em todas essas etapas, ferramentas computacionais para o processamento automático de textos.


Lingüística Computacional



A lingüística computacional constitui área de interseção entre os estudos da linguagem natural e a ciência da computação. Esse enfoque interdisciplinar permite aos lingüistas não apenas direcionar suas pesquisas para aplicações tecnológicas, mas também verificar a consistência e a plausibilidade de análises descritivas de línguas particulares e de modelos teóricos da linguagem humana.


Aspectos metodológicos



As pesquisas realizadas nas áreas de lingüística computacional e lingüística de corpus no âmbito do grupo se valem de uma variada gama de métodos e técnicas. Em primeiro lugar, são utilizadas linguagens de programação de propósito geral, tanto interpretadas quanto compiladas, com representantes dos mais diferentes paradigmas de programação, como o declarativo (leia-se Prolog), procedural (com destaque para a linguagem C), funcional (por exemplo LISP), orientado a objetos (Java e C++) ou multiparadigma (com forte ênfase em Python).  Em segundo lugar, recorremos à Extensible Markup Language (XML) para tanto para modelar estruturas de dados lingüísticos, por exemplo no desenvolvimento de analisadores (parsers) e tradutores automáticos, como para anotar e representar a estrutura de textos, em vários níveis de análise, no âmbito da lingüística de corpus.

Devido tanto às suas qualidades didático-pedagógicas quanto à enorme quantidade de bibliotecas disponíveis, Python se sobressai como a linguagem mais utilizada no grupo. De fato, nenhuma outra linguagem de programação dispõe de uma biblioteca tão rica voltada para o processamento automático de textos nos diferentes níveis de análise lingüística  quanto o Natural Language Toolkit (NLTK), implementado em Python. Outra vantagem de Python é permitir, de modo relativamente fácil, elaborar programas tanto para a chamada "computação nas nuvens" (cloud computing), utilizando, por exemplo, o Google App Engine, talvez a mais importante plataforma de desenvolvimento de aplicativos para a Web dentro desse novo paradigma, quanto para dispositivos computacionais móveis (smartphones, tablets, e-book readers etc.). 

Na análise automática de textos no âmbito da lingüística de corpus, merecem destaque as ferramentas de linha de comandos típicas do sistema operacional Unix (nativas, igualmente, no Linux e no Mac OS X), como o grep, wc, tr, sort, uniq etc., com as quais se podem realizar tarefas básicas como extração de concordâncias, toquenizacão e contagem de palavras de forma extremamente ágil. 

A par das linguagens de programação de propósito geral, assumem uma grande importância na modelação de componentes específicos da gramática, por um lado, modelos lingüísticos computacionais(ou formalismos lingüísticos) como a LFG, a HPSG, a Morfologia de Dois Níveis etc., por outro, sistemas de programação lingüística como  GFU Lab, LKB, FSA Utilities e xfst (a respeito da distinção entre formalismos lingüísticos e sistemas de programação lingüística, consulte-se Guinovart (2000)). Enquanto os dois primeiros estão mais voltados para a construção de analisadores sintáticos, os dois últimos constituem sistemas para compilação (a partir de expressões regulares) e manipulação de autômatos e transdutores de estados finitos, por meio dos quais fenômenos morfológicos e morfofonológicos, a anotação morfossintática de corpora bem como o mapeamento entre grafemas e fonemas podem ser modelados computacionalmente de forma extremamente eficiente. 


Relevância sócio-econômica



As pesquisas desenvolvidas pelos membros do grupo, em nível de iniciação científica, mestrado e doutorado, visam a preencher lacunas tanto na formação de recursos humanos no Ceará, uma vez que não há, nesse Estado, outros grupos na área de gramática gerativa ou processamento automático da linguagem natural, quanto no âmbito da indústria de softwares brasileira como um todo, na qual as tecnologias da linguagem natural, não obstante o papel cada vez mais importante que desempenham nos países mais desenvolvidos, ainda não têm sido suficientemente exploradas.


Equipe

Coordenador

Prof. Dr. Leonel F. de Alencar (Professor Adjunto do Departamento de Letras Estrangeiras e Programa de Pós-Graduação em Lingüística da UFC)


Colaborador externo

Prof. Dr. Gabriel de Ávila Othero (Professor Adjunto do Instituto de Letras da Universidade Federal do Rio Grande do Sul – UFRGS)