Esse é o primeiro passo de qualquer projeto de aprendizado de máquina, e entender bem isso pode economizar MUITO tempo depois.
Imagina que você está explicando seu projeto pra um colega na fila da cantina. Como você descreveria o problema?
“Quero criar um sistema que preveja se um cliente vai cancelar a assinatura do app no mês que vem.”
Nada de termos técnicos ainda, só a ideia central.
Aí entra uma definição clássica de um pesquisador pioneiro em ML – Tom Mitchell, que a gente pode adaptar assim:
Vamos aplicar isso?
- 📝 Tarefa (T): Prever quem vai cancelar a assinatura.
- 📊 Experiência (E): Histórico de uso dos clientes.
- 📈 Métrica (P): Acurácia (ou outra medida tipo F1, precisão, etc).
A gente SEMPRE faz suposições sem perceber. Bora listar:
- Quem usa pouco o app provavelmente vai sair.
- Se o cliente acionou muito o suporte, talvez esteja insatisfeito.
- Dados de 6 meses atrás ainda são úteis?
Colocar isso no papel ajuda a pensar melhor no modelo.
Ver o que outras pessoas já fizeram com problemas parecidos é um baita atalho.
Previsão de evasão escolar → também tenta prever quando alguém vai “largar”.
Seja sincero: por que você escolheu isso?
- 🎓 Projeto da faculdade?
- 🤔 Curiosidade mesmo? Demanda no trabalho?
- 📚 Algo que pode virar TCC?
Tudo vale, mas é bom ter claro.
Esse modelo vai:
- 💸 Ajudar uma empresa a economizar?
- 📱 Fazer a galera usar mais um app?
- 🔮 Prever algo antes de acontecer?
Coloca os benefícios na mesa!
Pensa no uso real da parada:
- 🔄 Vai rodar todo dia?
- 👨🏫 É só pra apresentar na aula?
- ⚡ Precisa ser rápido ou só muito preciso?
Isso ajuda a escolher o modelo e o tipo de treino.
Se você fosse resolver na mão, como faria?
“Se o cliente não usou o app na última semana + abriu 5 chamados → deve estar pensando em sair.”
Esse tipo de raciocínio ajuda a criar boas “features”.
Lista tudo o que você precisa pra resolver isso. Exemplo:
- ⏱️ Tempo de uso do app;
- 📅 Última vez que logou;
- 😤 Reclamações no suporte;
- 👴 Tempo como cliente.
Todo projeto tem suas tretas. Já pensa nisso:
- ❌ Dados incompletos?
- ⚖️ Pouca gente que realmente cancela (desequilíbrio)?
- 🔒 Dados confidenciais que você não pode usar?
Antecipar isso evita dor de cabeça.