A julgar por tudo o que se viu e ouviu semana passada, durante o 13° Simpósio Internacional de Jornalismo Online, que ocorreu em Austin, no Texas, a web semântica e outras tecnologia de suporte ao chamado Data Journalism já evoluíram o suficiente para transformar dados em um texto narrativo pronto para ser publicado. Os robôs repórteres já existem. Resta saber como conviverão com as milhares de unidades de carbono inteligentes formadas pelas faculdades de Jornalismo mundo afora. Não sei quanto a vocês, mas o robôs a mim não causam desconforto algum. Pelo contrário.
No Simpósio, Ben Welsh, do LA Times, deixou os colegas de profissão impressionados com o bom uso de técnicas que basicamente embutem o “conhecimento jornalístico” no código de um software desenvolvido em conjunto com as empresas Automated Insights, BlockShopper e Narrative Science, que extrai os fatos interessantes e gera trechos de texto ou até matérias inteiras. Pedro Dória, que esteve no Simpósio, escreveu a respeito, dias atrás, na sua coluna de O Globo.
A iniciativa de Ben Welsh no LA Times usa técnicas estatísticas para detectar mudanças de tendências que sinalizam algo interessante, e a partir dai gerar um texto “padrão”. O Ben indica explicitamente quais as tendências a observar, através de queries pré-definidas. Neste sentido.
Os textos da Narrative Science para beisebol, por exemplo, “funcionam” porque o estilo americano de reportar jogos é quase que um recital de estatísticas, com menos “opinião”.
Algo muito parecido com o que a Globo.com, já trabalha aqui no Brasil, em parceria com o Departamento de Informática da PUC-Rio, que faz uso da chamada Web Semântica. A diferença? A forma como os dados são tratados, me explica o professor Daniel Schwabe, da PUC-Rio, coordenador do projeto pelo lado da universidade. No caso da Narrative Science e do LA Times, a semântica está embutida no código ou em uma Planilha Excel. No nosso caso da experiência já em curso na Globo.com, para a área de Esporte, especialmente o futebol,, boa parte da semântica está no próprio dado.
“Por exemplo, se eu quiser o total de chutes a gol de um time, os dados já embutem a semântica que basta contar os chutes dos jogadores do time, pois ele “entende” que um jogador pertence a um time, e quem faz chute é jogador, não time.”, explica Schwabe. “Os indicadores da ocorrência de um estereótipo são definidos em termos deste papéis descritos no modelo semântica. Por exemplo: jogador de ataque, jogador de defesa, etc.. Os estereótipos de jogo terminam expressos por conjuntos de queries”, diz.
Outra diferença básica: o sistema desenvolvido pela Globo.com e a PUC.Rio ainda não gera texto pronto para ser publicado, apenas uma retranca com fatos considerados relevantes de serem ressaltados como suporte ao texto gerado pelo jornalista. “Uma evolução futura pretende incluir esquemas retóricos para gerar textos automaticamente. Isto será uma generalização da ideia de templates fixos para o texto, como me parece ser a abordagem do Ben e da Narrative Science”, explica Daniel Schwabe.
Estes esquemas retóricos serão definidos pelos editores, e poderão variar conforme o estereótipo de jogo, e a linha editorial que se deseja adotar no texto.
O trabalho da PUC-Rio com a Globo.com começou pela editoria de Esportes, e inclui 10 jornalistas da área na TV Globo e no Globo Esporte.com. Tentei, em vão, falar com o amigo Newton Fleury Filho, coordenador da iniciativa pelo lado da Globo.com, para saber planos futuros e até ver a ferramenta funcionando. Ainda aguardo um contato.
Segundo o professor Schwabe, os dados gerados pela ferramenta já geram insights para os repórteres sobre o tipo de jogo: se foi uma zebra, uma virada, uma goleada. E todas os indicadores que suportam tratar o jogo como uma zebra, por exemplo, quando o placar não condiz com a superioridade do time perdedor. Algo fácil em uma vitória do Chelsea sobre o Barcelona, mas bem mais difícil em campeonatos estaduais onde a diferenciação entre estilo de jogo e nível das equipes praticamente inexiste.
“O sistema sugere aos repórteres o approach, que eles podem aceitar ou não”, explica Schwabe. O software trata o dados, faz uma análise critica deles pré-definida pelos jornalistas e gera trechos de texto, também pré-definidos, para auportar uma decisão editorial: qual é a ênfase que vamos dar”?
Feita a matéria, a ferramenta em uso na Globo.com associa conceitos da antologia do futebol ao texto e sugere matérias relacionadas.
Algo semelhante ao que já oferece hoje a Personalized Media, que usa técnicas semânticas para identificar conteúdos relacionados que sejam de interesse, a partir de uma dada página existente, e não a partir de alguma fonte de dados. “Vamos começar a trabalhar nisto agora”, comente Schwabe.
E explica: ” O ponto principal é saber em que medida esta estrutura sugerida de links reflete os objetivos de todos os stakeholders no processo – leitor, jornalista, editor, etc..O que é levado em conta para definir o que seria um link interessante? Como aferir isto? Por exemplo, pode haver um certo conflito entre o que o leitor quer ler (ie, acha importante estar linkado) e o que o jornalista quer dizer (também através da inclusão de um link). Como resolver isto?”.
A PUC e a Globo.com vêm trabalhando nisso há mais ou menos um ano. “Foi uma decisão estratégica do Globo.com”, diz Scchwabe, que descreverá os obstáculos e as conquistas do trabalho na conferência Semantic Tech & Business, que acontece entre 3 a 7 de Junho na cidade de São Francisco, nos Estados Unidos.
O próximo passo, na Globo.com, é levar as atuais conquistas para novas editorias. A primeira escolhida foi a EGO, que trata de celebridades. Mas Schwabe vê muitas outras possibilidade de uso da marcação semântica. Entre elas, identtificar a popularidade dos assuntos e manter os mais quentes em posições de destaque em um template (sonho de todo editor de primeira página de portais web). Ou ainda propagar a popularidade de determinado tópico parta conteúdos associados. Trabalhar o próprio layout de páginas Web de acordo com relações semânticas e por aí vai.
E o jornalista?
Em todos os casos citados até aqui, a base com os dados subjacentes deve existir em algum lugar. Com a popularização da Web Semântica, muitos assuntos já têm dados disponíveis. Iinclusive agora com este movimento de dados abertos de governo brasileiro, muitos estarão à disposição, necessitando de tratamento adequado. . Mas em muitos outros casos, como vários citados por Ben Welsh, do LA Times, no Simpósio de Jornalismo, eles têm que ser coletados internamente também.
A história tem demonstrado que qualquer automatização prescinde de processos bem estruturados. E esses processos precisam ser definidos por jornalistas. Agora, mais do que nunca, os jornalistas precisam saber como trabalhar com dados. Precisam saber onde procurar e pedir dados chave, como analisá-los, e como apresentá-los ao público. Uma cartilha recém publicada sobre Data Journalism tem o objetivo de ajudar os jornalistas a começarem a pensar nos dados, encontrar e utilizar aqueles capazes de melhorar a notícia.
Algum um dia, sem dúvida, a máquina será capaz de gerar textos automaticamente, sem a intervenção humana de fato, a não ser na programação prévia. Mas nunca em todos os casos.
“Para assuntos “rotineiros”, no qual a criatividade e a análise não é são tão essenciais, isso já é realidade. O Ben dá bons exemplos, e acho que é a isto que ele estava se referindo quando afirma que nenhum desses textos será capaz de ganhar um Pulitzer”, afirma Schwabe.
Eu concordo. Os robôs serão muito úteis para tratar informações pura e simples, em seções onde o erro é imperdoável por parte do leitor, como nos catálogos e nos famosos “tijolinhos” com informações sobres espetáculos culturais, programação de cinema, informações sobre bares e restaurantes, estatísticas sobre crimes. Tudo aquilo que é mecânico, repetitivo.
Ao jornalista caberá cada vez mais a tarefa de pôr todos os dados e informações em perspectiva. Analisar e descrever o contexto. Buscar o diferencial.
FONTE: IDG NOW