Recolección
- Hay bases de datos Públicas o privadas. La diferencia es que para las privadas hay qué pedir autorización para publicar tu proyecto ya que puede contener información privada sensible.
La información puede venir:
- Estructurada: Tablas, bases de datos. .csv. Ya tienen una estructura correcta para realizar análisis sobre ellas.
- No estructurada: Por ejemplo un texto, dónde no hay nada que determine la estructura de este, solo el autor puede decidirlo. Este tipo de datos requiere un poco más de esfuerzo para recogerlo y organizarlo.
- Hay distintos tipos de archivos, por ej .csv, Excel, etc.
- Hay distintos tipos de fuentes, por ej Kaagle.
Limpieza
Es una de las partes fundamentales, y que más tiempo nos van a llevar en el proceso de hacer el análisis de datos. Es importante porque GIGO.
- Se debe estandarizar un formato para leerlo y procesarlo de manera sencilla. Los datos deben estar bajo un estándar. Ej: Estamos trabajando texto, este debe ser todo en minúsculas.
- Mientras mejor limpiemos el input, mejor será el output.
- La preparación es dónde dejamos todo organizado y prolijo listo para empezar a realizar el análisis y la visualización sobre ello.
Herramientas usadas:
- DAX, Excel(más usada) o Power BI (Power Query de Microsoft)
- En Python: Pandas y Numpy
- SSIS (SQL Server Integration)
- Para NPL —> Libreria Spacy
- DataPrep