11th International Conference on Computational Processing of Portuguese - PROPOR 2014 - October 6-9, 2014,
Institute of Mathematical and Computer Sciences (ICMC) at the University of São Paulo (USP) in São Carlos/SP
Long paper: JMorpher: a Finite-State Morphological Parser in Java for Android Authors: Leonel F. de Alencar, Mardônio França,Katiuscia Andrade,Philipp Costa,Henrique Vasconcelos,Francinaldo Madeira Abstract: This paper presents JMorpher, a morphological parsing utility that is implemented in pure Java. It is apparently the first tool of this type that natively runs on Android mobile devices. JMorpher compiles a lexical transducer definition in the AT{\&}T raw text format, of the type generated by Foma and other open source finite-state packages, into an internal Java representation which is drawn upon to parse input strings. Besides the API, JMorpher comprises of a simple graphical interface that allows the user to load a transducer file, type in some text and parse it. An evaluation of results based on two large lexical transducers of Portuguese of different complexity degrees are provided. The implementation was shown to be very efficient on an average desktop PC. Although, on an Android smartphone, JMorpher's performance is much lower, it is still suited to the needs of NLP tasks in this environment.
Reference Alencar, Leonel Figueiredo de et. al. JMorpher: a Finite-State Morphological Parser in Java for Android. In: Baptista, Jorge; Mamede, Nuno (Eds.). 11thInternational Conference on Computational Processing of Portuguese, PROPOR 2014. São Carlos, Brazil, October 6-8, 2014. Proceedings. Series Lecture Notes in Computer Science / Subseries Lecture Notes in Artificial Intelligence. Berlin; Heidelberg: Springer, 2014 (to appear)
|
domingo, 5 de outubro de 2014
PROPOR 2014
sexta-feira, 3 de outubro de 2014
Sobre o Complin
Complin | Grupo de pesquisa sobre lingüística computacional, lingüística de corpus e gramática gerativa na Universidade Federal do Ceará
Vinculação institucional
Sediado no Centro de Humanidades da Universidade Federal do Ceará, o grupo CompLin – Computação e Linguagem Natural está vinculado estreitamente ao Curso de Letras, ao Departamento de Letras Estrangeiras e ao Programa de Pós-Graduação em Lingüística, todos integrantes dessa unidade acadêmica, mas congrega também pesquisadores de outras instituições, como, por exemplo, a Universidade Federal do Rio Grande do Sul.
Objetivos
O grupo CompLin – Computação e Linguagem Natural foca a investigação, em nível teórico, dos aspectos computacionais das gramáticas das línguas naturais bem como a aplicação prática desses estudos no desenvolvimento de programas de processamento automático da linguagem humana nos níveis fonológico, morfológico, sintático, semântico e textual, com ênfase em sistemas de tradução automática, os quais integram esses diferentes níveis de processamento, inserindo-se, portanto, na confluência entre a lingüística teórica e descritiva, a lingüística de corpus e a lingüística computacional.
Fundamentação teórica
Lingüística Teórica
A
lingüística teórica, no âmbito do paradigma gerativo chomskyano, tem
como objeto de estudo a Faculdade da Linguagem, que é parte de nosso
patrimônio genético enquanto humanos e responsável, por um lado, pela
capacidade inata para adquirir uma língua natural e, por outro, pelas
características comuns a todas as línguas, constituindo o arcabouço da
Gramática Universal. Sob essa perspectiva, a teoria lingüística é um
modelo de parte da cognição humana. As estruturas lingüísticas, que
consistem em representações que conjugam uma Forma Lógica (LF, do inglês
Logical Form) e uma Forma Fonética (PF, do inglês Phonetic Form), são
geradas pela interação de dois módulos da mente: o sistema computacional
e o léxico, o primeiro operando sobre itens extraídos do segundo. Nessa
teoria, as sentenças consistem de emparelhamentos de LF–PF, os quais
constituem, por sua vez, o input para os sistemas
articulatório-perceptual e conceptual-intencional, responsáveis,
respectivamente, por um lado, pela pronúncia e recepção auditiva, por
outro, pela interpretação das sentenças.
Lingüística de Corpus
A
lingüística de corpus tem como objetivo a compilação, a anotação e a
exploração de corpora, compreendidos como acervos de textos autênticos
em linguagem natural disponibilizados de forma eletrônica, utilizando,
em todas essas etapas, ferramentas computacionais para o processamento
automático de textos.
Lingüística Computacional
A
lingüística computacional constitui área de interseção entre os estudos
da linguagem natural e a ciência da computação. Esse enfoque
interdisciplinar permite aos lingüistas não apenas direcionar suas
pesquisas para aplicações tecnológicas, mas também verificar a
consistência e a plausibilidade de análises descritivas de línguas
particulares e de modelos teóricos da linguagem humana.
Aspectos metodológicos
As
pesquisas realizadas nas áreas de lingüística computacional e
lingüística de corpus no âmbito do grupo se valem de uma variada gama de
métodos e técnicas. Em primeiro lugar, são utilizadas linguagens de
programação de propósito geral, tanto interpretadas quanto compiladas,
com representantes dos mais diferentes paradigmas de programação, como o
declarativo (leia-se Prolog), procedural (com destaque para a linguagem
C), funcional (por exemplo LISP), orientado a objetos (Java e C++) ou
multiparadigma (com forte ênfase em Python). Em segundo lugar,
recorremos à Extensible Markup Language (XML) para tanto para modelar
estruturas de dados lingüísticos, por exemplo no desenvolvimento de
analisadores (parsers) e tradutores automáticos, como para anotar e
representar a estrutura de textos, em vários níveis de análise, no
âmbito da lingüística de corpus.
Devido
tanto às suas qualidades didático-pedagógicas quanto à enorme
quantidade de bibliotecas disponíveis, Python se sobressai como a
linguagem mais utilizada no grupo. De fato, nenhuma outra linguagem de
programação dispõe de uma biblioteca tão rica voltada para o
processamento automático de textos nos diferentes níveis de análise
lingüística quanto o Natural Language Toolkit (NLTK), implementado em
Python. Outra vantagem de Python é permitir, de modo relativamente
fácil, elaborar programas tanto para a chamada "computação nas nuvens" (cloud computing),
utilizando, por exemplo, o Google App Engine, talvez a mais importante
plataforma de desenvolvimento de aplicativos para a Web dentro desse
novo paradigma, quanto para dispositivos computacionais móveis (smartphones, tablets, e-book readers etc.).
Na
análise automática de textos no âmbito da lingüística de corpus,
merecem destaque as ferramentas de linha de comandos típicas do sistema
operacional Unix (nativas, igualmente, no Linux e no Mac OS X), como o
grep, wc, tr, sort, uniq etc., com as quais se podem realizar tarefas
básicas como extração de concordâncias, toquenizacão e contagem de
palavras de forma extremamente ágil.
A
par das linguagens de programação de propósito geral, assumem uma
grande importância na modelação de componentes específicos da gramática,
por um lado, modelos lingüísticos computacionais(ou formalismos
lingüísticos) como a LFG, a HPSG, a Morfologia de Dois Níveis etc., por
outro, sistemas de programação lingüística como GFU Lab, LKB, FSA
Utilities e xfst (a respeito da distinção entre formalismos lingüísticos
e sistemas de programação lingüística, consulte-se Guinovart (2000)).
Enquanto os dois primeiros estão mais voltados para a construção de
analisadores sintáticos, os dois últimos constituem sistemas para
compilação (a partir de expressões regulares) e manipulação de autômatos
e transdutores de estados finitos, por meio dos quais fenômenos
morfológicos e morfofonológicos, a anotação morfossintática de corpora
bem como o mapeamento entre grafemas e fonemas podem ser modelados
computacionalmente de forma extremamente eficiente.
Relevância sócio-econômica
As
pesquisas desenvolvidas pelos membros do grupo, em nível de iniciação
científica, mestrado e doutorado, visam a preencher lacunas tanto na
formação de recursos humanos no Ceará, uma vez que não há, nesse Estado,
outros grupos na área de gramática gerativa ou processamento automático
da linguagem natural, quanto no âmbito da indústria de softwares
brasileira como um todo, na qual as tecnologias da linguagem natural,
não obstante o papel cada vez mais importante que desempenham nos países
mais desenvolvidos, ainda não têm sido suficientemente exploradas.
Equipe
Coordenador
Prof. Dr. Leonel F. de Alencar (Professor Adjunto do Departamento de Letras Estrangeiras e Programa de Pós-Graduação em Lingüística da UFC)Colaborador externo
Prof. Dr. Gabriel de Ávila Othero (Professor Adjunto do Instituto de Letras da Universidade Federal do Rio Grande do Sul – UFRGS)
Assinar:
Postagens (Atom)