Opinião
O “El Dorado” dos dados clínicos: Como start-ups podem criar valor com dados médicos sintéticos
Os dados tornaram-se o combustível essencial da inteligência artificial em saúde. No entanto, o seu acesso é hoje uma das maiores barreiras à inovação. Regulamentos como o GDPR e as crescentes exigências éticas em torno da privacidade dos pacientes limitam a partilha e a reutilização de informações clínicas.
Startups e centros de investigação enfrentam, assim, um paradoxo: necessitam de grandes volumes de dados reais para treinar modelos de IA, mas não podem utilizá-los livremente. É neste contexto que emergem os dados sintéticos: réplicas estatisticamente fiéis de dados médicos reais, geradas artificialmente, sem qualquer risco de identificação pessoal.
A criação de dados sintéticos baseia-se em modelos generativos, como redes adversariais (GANs) ou transformadores, capazes de aprender as distribuições e correlações presentes em dados reais e de produzir novos exemplos com o mesmo comportamento estatístico. Em termos simples, trata-se de gerar uma “cópia digital” da informação clínica. O resultado é um conjunto de dados que mantém o valor analítico do original (permite treinar algoritmos, testar hipóteses e validar modelos) mas sem qualquer ligação direta a um paciente concreto. Esta abordagem está a ser rapidamente adotada por hospitais, laboratórios e empresas de saúde digital que desejam inovar sem infringir as regras de proteção de dados.
O potencial económico é significativo. Empresas como a Syntegra e a MDClone já demonstraram que é possível criar bases de dados sintéticas que preservam mais de 95% da precisão estatística dos conjuntos originais. Estas soluções permitem desenvolver modelos de predição clínica, algoritmos de triagem e sistemas de apoio à decisão médica com custos muito inferiores aos dos ensaios tradicionais. Em acréscimo, eliminam quase por completo o tempo necessário para a aprovação ética e regulatória, um fator crítico para startups que precisam de rapidez para competir.
Em paralelo, os dados sintéticos estão a tornar-se um novo ativo estratégico. Tal como uma molécula patenteada ou um algoritmo proprietário, uma base de dados sintética pode ser licenciada, partilhada ou vendida. Universidades e hospitais começam a explorar modelos de colaboração baseados na geração controlada de dados sintéticos a partir dos seus registos clínicos, criando uma nova fonte de receitas. Em vez de partilhar dados reais, partilham a estrutura estatística da informação, assegurando a confidencialidade dos pacientes.
Contudo, esta tecnologia não é isenta de desafios. A qualidade dos dados sintéticos depende diretamente da qualidade dos dados originais. Se os conjuntos de treino contiverem enviesamentos, sejam eles clínicos, demográficos ou sociais, estes mesmos padrões serão reproduzidos. É o conhecido problema do viés sintético, o qual pode gerar decisões clínicas injustas ou imprecisas. Garantir transparência na geração, validação e utilização destes dados é essencial. A Comissão Europeia e a Agência Europeia do Medicamento já discutem normas específicas para dados artificiais, reconhecendo o seu potencial, mas alertando para os riscos de uso inadequado.
Do ponto de vista técnico, outro desafio é garantir a fidelidade sem fuga de identidade. Gerar dados demasiado próximos dos reais aumenta o risco de reidentificação; torná-los demasiado diferentes reduz a sua utilidade para a ciência. É neste equilíbrio fino entre semelhança e segurança que reside a arte dos dados sintéticos. Start-ups que dominem esta capacidade poderão fornecer não apenas dados, mas também confiança, e confiança é o bem mais escasso no atual ecossistema digital da saúde.
A aplicação prática é vasta. Dados sintéticos já são usados para treinar algoritmos de diagnóstico em imagiologia médica, desenvolver modelos preditivos em oncologia e testar dispositivos de monitorização contínua. Hospitais podem usá-los para validar sistemas de IA antes da implementação real; farmacêuticas, para simular populações de ensaio; seguradoras, para avaliar, de forma ética, o risco. Em todos os casos, o princípio é o mesmo: inovar com segurança, especialmente num setor tão crítico com a saúde.
No fundo, o avanço dos dados sintéticos redefine o conceito de propriedade e de valor na saúde digital. O ativo mais valioso deixa de ser o dado em si e passa a ser a capacidade de gerar dados de qualidade sob controlo ético. Este movimento democratiza o acesso à investigação clínica, permitindo que pequenas equipas desenvolvam tecnologia com a mesma sofisticação de grandes centros hospitalares. A oportunidade está partilhada; ficamos a aguardar empreendedores e tecnólogos que vão de encontro a esta necessidade.
Tiago Cunha Reis, Ph.D., é doutorado em Sistemas de Bioengenharia pelo programa MIT-Portugal, tendo desenvolvido o seu doutoramento no Hammond Lab (MIT, EUA). Com foco nas necessidades de translação médica, o então engenheiro é agora aluno de Medicina. Reconhecido por sua paixão pela humanização da tecnologia em saúde e por melhorar ferramentas de diagnóstico e prognóstico, Tiago Cunha Reis possui um amplo histórico de prémios, publicações e nomeações internacionais em sociedades científicas europeias. Fomentador de conhecimento aplicado, fundou uma start-up focada em sensores e inteligência artificial, a qual expandiu internacionalmente antes de ser adquirida no final de 2022.








