Português English
Contato
Publicado em: 21/05/2010

Intermitência e universalidade na distribuição temporal de palavras

SEXTA-FEIRA, 28 de maio de 2010
———————————————————
Horário: 10h30min
Duração: 45min
———————————————————
Local:
Auditório Vermelho
Instituto de Informática, UFRGS
Av Bento Gonçalves 9500, Bloco IV
———————————————————

Palestrante: Dr. Eduardo Altmann (Instituto de Física, UFRGS)

Título:
Intermitência e universalidade na distribuição temporal de palavras

Resumo:
A distribuição de palavras chaves em textos é de fundamental importância na busca de conteúdos e na classificação (automática) de documentos. Além destas aplicações, a análise estatística do uso de palavras permite investigar quantitativamente a linguagem natural que por sua vez reflete as atividades e o pensamento humano. A existência de propriedades estatísticas universais na linguagem humana é bem conhecida pelo menos desde os trabalhos de Zipf, que investigou a frequência de palavras em textos. Neste seminário será proposta uma nova distribuição, que leva em conta a ordem temporal das ocorrências das palavras sendo portanto complementar à distribuição de Zipf. Mais precisamente, será estudado a distribuição do tempo entre sucessivos usos de uma mesma palavra. Estudos recentes do tempo entre eventos sucessivos revelaram propriedades universais na sequência temporal intermitente de terremotos, rajadas de vento, envio de e-mails, entre outros exemplos. De forma análoga, e em parte refletindo estes exemplos, a linguagem também apresenta uma intermitência no uso de palavras revelada pela alternância de clusters de uso e de ausência de uma dada palavra. Mais precisamente, mostramos que a distribuição dos tempos entre usos difere tanto do caso regular (periódico) quanto do caso aleatório (Poisson), sendo bem descrito por uma exponencial esticada (distribuição de Weibull). Esta distribuição é observada para diferentes palavras, línguas, graus de formalidade do discurso, mantendo-se válida por uma escala surpreendentemente longa de tempo. Em escalas muito maiores do que uma sentença, o uso de palavras é livre de regras sintáticas sendo regido exclusivamente pela semântica (i.e., o significado das palavras). De fato, mostramos que a intensidade da intermitência no uso de palavras é maior em palavras que carregam maior conteúdo (diretamente atreladas à realidade) e menor em palavras abstratas (operadores, advérbios, etc.), conceitos quantificados a partir da classificação das palavras em classes semânticas. Algumas especulações e conexões com resultados clássicos de classificação de documentos e decaimento de memória serão mencionadas.

Referência principal: E. G. Altmann, J. B. Pierrehumbert, and A. E. Motter, “Beyond word frequency: Bursts, lulls, and scaling in the temporal distributions of words”, PLoS ONE 4 (11) e7678 (2009)

Short Bio:
Graduação e mestrado pela USP e doutorado pelo Instituto Max Planck para Física de Sistemas Complexos, na Alemanha. Todos em Física, com mestrado e doutorado na área de sistemas dinâmicos. Pós-doutorado na Universidade Northwestern, EUA, e atualmente no IF-UFRGS. Areas de interesse: sistemas complexos, física estatística, sistemas dinâmicos, propriedades dinâmicas e estatísitcas de línguagem natural.