CRF+LG: Uma Abordagem Híbrida para o Reconhecimento de Entidades Nomeadas em Português

Nome: Juliana Pinheiro Campos Pirovani
Tipo: Tese de doutorado
Data de publicação: 07/02/2019
Orientador:

Nomeordem decrescente Papel
Elias Silva de Oliveira Orientador

Banca:

Nomeordem decrescente Papel
Claudine Santos Badue Gonçalves Examinador Interno
Elias Silva de Oliveira Orientador
Eric Guy Claude Laporte Examinador Externo
Patrick Marques Ciarelli Examinador Externo
Priscila Machado Vieira Lima Examinador Externo

Resumo: "O Reconhecimento de Entidades Nomeadas tem como objetivo identificar e classificar automaticamente entidades como pessoas, locais e organizações e é uma tarefa muito importante em Extração de Informação. As abordagens utilizadas no desenvolvimento de sistemas de Reconhecimento de Entidades Nomeadas são: linguística, aprendizado de máquina ou híbrida. Este trabalho propõe o uso de uma abordagem híbrida, denominada CRF+LG, para o Reconhecimento de Entidades Nomeadas em textos em Português buscando explorar as vantagens das abordagens linguística e de aprendizado de máquina.

A abordagem proposta usa Campos Aleatórios Condicionais considerando a classificação obtida previamente por uma Gramática Local como uma característica adicional. Campos Aleatórios Condicionais é um método probabilístico para predição estruturada. Gramáticas locais são regras construídas manualmente para identificar expressões em um texto. O objetivo foi estudar essa forma de incluir a expertise humana (Gramática Local) na abordagem de aprendizado de máquina Campos Aleatórios Condicionais e analisar como ela pode contribuir para o desempenho dessa abordagem.

Para alcançar esse objetivo, uma Gramática Local foi construída para reconhecer as 10 categorias de entidades nomeadas do HAREM, um evento de avaliação conjunta para o Reconhecimento de Entidades Nomeadas em Português. Inicialmente, as Coleções Douradas do Primeiro e Segundo HAREM, consideradas bases de referência para essa tarefa em Português, foram utilizadas como bases de treino e teste respectivamente para avaliação
do CRF+LG. Posteriormente, a abordagem proposta foi avaliada em outras duas bases de dados.

Os resultados obtidos superam os resultados de sistemas reportados na literatura que foram avaliados em condições equivalentes. Esse ganho foi de aproximadamente 8% em Medida-F em relação a um sistema que também usou CRF e de 2% em relação a um sistema que usou Redes Neurais. Alguns sistemas que usaram Redes Neurais apresentam resultados superiores para as métricas, mas usando corpora massivo para aprendizado não supervisionado de características, o que não foi utilizado neste trabalho.

A Gramática Local construída pode ser utilizada individualmente quando não há corpus de treino disponível e em conjunto com outras técnicas de aprendizado de máquina para melhorar o seu desempenho. Também foram analisados os limites (inferior e superior) da abordagem proposta. O limite superior indica o ganho máximo que pode ser obtido para a tarefa em questão ao usar esta abordagem."

Acesso ao documento

Acesso à informação
Transparência Pública

© 2013 Universidade Federal do Espírito Santo. Todos os direitos reservados.
Av. Fernando Ferrari, 514 - Goiabeiras, Vitória - ES | CEP 29075-910