SEXTA-FEIRA, 28 de maio de 2010
———————————————————
Horário: 10h30min
Duração: 45min
———————————————————
Local:
Auditório Vermelho
Instituto de Informática, UFRGS
Av Bento Gonçalves 9500, Bloco IV
———————————————————
Palestrante: Dr. Eduardo Altmann (Instituto de Física, UFRGS)
Resumo:
A distribuição de palavras chaves em textos é de fundamental importância na busca de conteúdos e na classificação (automática) de documentos. Além destas aplicações, a análise estatística do uso de palavras permite investigar quantitativamente a linguagem natural que por sua vez reflete as atividades e o pensamento humano. A existência de propriedades estatísticas universais na linguagem humana é bem conhecida pelo menos desde os trabalhos de Zipf, que investigou a frequência de palavras em textos. Neste seminário será proposta uma nova distribuição, que leva em conta a ordem temporal das ocorrências das palavras sendo portanto complementar à distribuição de Zipf. Mais precisamente, será estudado a distribuição do tempo entre sucessivos usos de uma mesma palavra. Estudos recentes do tempo entre eventos sucessivos revelaram propriedades universais na sequência temporal intermitente de terremotos, rajadas de vento, envio de e-mails, entre outros exemplos. De forma análoga, e em parte refletindo estes exemplos, a linguagem também apresenta uma intermitência no uso de palavras revelada pela alternância de clusters de uso e de ausência de uma dada palavra. Mais precisamente, mostramos que a distribuição dos tempos entre usos difere tanto do caso regular (periódico) quanto do caso aleatório (Poisson), sendo bem descrito por uma exponencial esticada (distribuição de Weibull). Esta distribuição é observada para diferentes palavras, línguas, graus de formalidade do discurso, mantendo-se válida por uma escala surpreendentemente longa de tempo. Em escalas muito maiores do que uma sentença, o uso de palavras é livre de regras sintáticas sendo regido exclusivamente pela semântica (i.e., o significado das palavras). De fato, mostramos que a intensidade da intermitência no uso de palavras é maior em palavras que carregam maior conteúdo (diretamente atreladas à realidade) e menor em palavras abstratas (operadores, advérbios, etc.), conceitos quantificados a partir da classificação das palavras em classes semânticas. Algumas especulações e conexões com resultados clássicos de classificação de documentos e decaimento de memória serão mencionadas.
Referência principal: E. G. Altmann, J. B. Pierrehumbert, and A. E. Motter, “Beyond word frequency: Bursts, lulls, and scaling in the temporal distributions of words”, PLoS ONE 4 (11) e7678 (2009)