O matemático Clive Humby disse em 2006 que “os dados são o novo petróleo”: valiosos, mas inutilizáveis se não forem refinados. Assim como o petróleo, os dados também têm um equivalente sintético que impulsionará o futuro da inteligência artificial, segundo o co-fundador e CTO da Gretel, John Myers.
“Myers afirmou que os dados sintéticos serão essencialmente o combustível subjacente que impulsionará o desenvolvimento de sistemas de IA e, especificamente, os dados que os compõem”, disse ele no último episódio do Quartz AI Factor, uma série de vídeos no Nasdaq MarketSite (NDAQ).
A Gretel fornece dados sintéticos para empresas a fim de melhorar modelos de IA e aprendizado de máquina. Os dados são a base para o desenvolvimento de sistemas e treinamento de modelos para tornar a IA mais inteligente e eficaz a cada uso.
“Myers comparou os dados sintéticos ao óleo sintético. Assim como todos que dirigem um carro hoje estão usando óleo sintético, eles sabem que é semelhante ao óleo real, mas é fabricado e possui qualidades garantidas que garantem que o motor funcione sem problemas.”
Os dados sintéticos funcionam de maneira semelhante. Existem duas maneiras de criar dados sintéticos. A primeira é pegar dados existentes e torná-los seguros para uso – reduzindo o volume, tornando-os portáteis e eliminando riscos de privacidade, explicou Myers. A outra é criá-los “do zero”, gerando dados que não existem para resolver problemas e construir novos produtos.
A consultoria Gartner estimou que até 2024, 60% dos dados usados para IA e análise seriam gerados sinteticamente. O mercado de geração de dados sintéticos está previsto para crescer para US$2,1 bilhões em 2028, a partir de US$381,3 milhões em 2022, de acordo com a BCC Research.
A privacidade é um dos principais pontos de venda para dados sintéticos, especialmente em setores altamente regulamentados, como serviços financeiros e saúde, que lidam com muitas informações pessoais sensíveis. Mas os dados sintéticos também podem ajudar a preencher lacunas onde faltam dados do mundo real e complementar dados produzidos organicamente que estão desatualizados ou de baixa qualidade.
No entanto, Myers não vê os dados sintéticos substituindo os dados brutos. Em vez disso, eles servirão como complemento aos dados reais e registros.
“Acho que o que vamos encontrar é que haverá um limite bastante claro que dirá que, quando quisermos construir aplicativos ou colocar esses dados em uso, vamos pegar uma versão sintética desses dados e utilizar isso”, disse Myers. “E isso é onde seus aplicativos serão construídos na camada empresarial, enquanto esses dados brutos são utilizados para refiná-los em dados sintéticos.”
Assista ao último episódio do Quartz AI Factor acima.