PRIMER PASO : RECOPILACIÓN DE DATOS - CURSO GRATIS !



Fuentes de datos & Riesgos.



Los datos están en todas partes y casi cualquier empresa puede generar montañas de datos, algunas de las fuentes de datos más comunes son eventos web, datos de clientes, datos logísticos y transacciones financieras.


Profundicemos un poco más en los datos web, cuando un usuario visita una página web o hace clic en un enlace, puede ser útil rastrear su número de usuario, el nombre del  evento, la URL de la página visitada o un identificador para el elemento en el que se hizo clic.


Supongamos que un usuario llamado Peter , visita nuestra pagina web y le gusta uno de nuestros productos , por ejemplo un libro, podemos rastrear su nombre, la fecha en la que compro un producto, el objeto al cual hizo click.Es importante recordar que el nombre Peter es información de identificación personal o PII.


PII incluye el nombre una persona, ubicación , dirección de correo electrónico y cualquier otro dato personal, la PII debe tratarse con extrema sensibilidad y precaución, una de las formas mas fáciles de proteger la identidad de Peter  es dividir la información en dos entradas separadas, podemos asignarle a Peter una ID y almacenar esa información en una tabla de usuarios. Así seria mucho mas simple identificar su evento o el producto al cual accedió usando su ID.


Para proteger la identidad de Peter, queremos asegurarnos de que el acceso a la tabla de usuarios este restringido solo a personas que necesitan conocer la identidad de Jane, como los representantes de servicio al cliente o los miembros del equipo legal. La mejor manera de proteger la privacidad de Peter seria destruir nuestra tabla de datos después de asignarle el ID ya que los datos quedarían completamente anónimos.


Recopilación de datos


Si bien esta parte es útil para algunos proyectos de Ciencia de datos es solo una parte del rompecabezas, a menudo necesitamos recopilar datos de fuentes externas & hay muchas formas de hacerlo, algunas de estas son :

* APIs :

Es una manera fácil de solicitar datos de un tercero a través de internet, muchas empresas tienen APIs para que sus empleados puedan acceder a sus datos y entre ellas están Twitter, Wikipedia, Yahoo, Google Maps entre otras.


* Registros públicos:


En Estados Unidos por ejemplo Data.gov tiene datos de salud , educación y comercio disponibles para descargarlos , en la UE - data.dot.europa.dot.eu tiene datos similares y toda esta información puede ser excelente para comprender las tendencias a nivel de la población o recopilar datos económicos.


* Mechanical Turk:

Significa pedirle a los humanos que completen una tarea que finalmente planeamos computarizar, esto significa etiquetar un conjunto de imágenes para crear un conjunto de entrenamiento para el reconocimiento de imágenes. En lugar de pedirle a una persona que etiquete miles de imágenes , reclutamos a miles de personas para que lo hagan por nosotros.
También podemos usar Mechanical Turk para etiquetar reseñas de los clientes como positivas o negativas, extraer texto de un formulario o resaltar palabras clave en una oración.



Almacenamiento y recuperación de datos.

Algunos datos no están estructurados , como correos electrónicos , texto, archivos de video y audio, páginas web y mensajes de redes sociales, estos tipos de datos a menudo se almacenan en un tipo de base de datos llamadas Base de datos de documentos.
Mas comúnmente los datos se pueden expresar como tablas de información, como lo que vemos en las hojas de cálculo.Una base de datos que almacena información en tablas se denomina Base de datos relacional.


Una vez que los datos se hayan almacenado en una base de datos de documentos  tenemos que acceder a ellos, en un nivel básico , queremos poder solicitar un dato especifico como todos los mensajes del dia 11 de abril, o todas las direcciones de clientes en New York. Además , incluso podríamos querer hacer algunos análisis , como sumar, contar o promediar datos. Cada tipo de base de datos tiene su propio lenguaje de consulta , las bases de datos usan principalmente NoSQL, mientras que las bases de datos relacionales usan principalmente SQL.


Almacenar los datos de tu empresa o el lugar donde trabajas es como construir una biblioteca, primero debemos de construir nuestra biblioteca, después debemos decidir qué tipos de estanterías usar para almacenar nuestros libros, estos dependen del tipo de libro.

Gracias por tomarte el tiempo de leer el contenido , aquí te dejo el link del repositorio con los cursos para aprender a importar datos , usar API , manipulas SQL desde Python , Web Scpraping entre otro temas espero te guste.

Comentarios

  1. Estupendo, estoy desarrollando un poco más mis habilidades en python y comenzar tu curso; excelente.

    ResponderBorrar
    Respuestas
    1. Espero lo aproveches me ayudarías mucho compartiendo con tus conocidos!

      Borrar

Publicar un comentario

Entradas populares