Web scrapping: Getting data from the web with R

Web scrapping: Getting data from the web with R

Presentación:

Hoy en día, un aspecto importante cuando se trabaja con datos es que, a menudo, estos se pueden obtener de la web aunque no es necesariamente senzillo, dado que se necesita descargarlos y pre-tratarlos con diferentes procesos, que dependen del formato en qué están guardadas en la web.

En este curso se exploran algunos de estos formatos conjuntamente con los métodos y herramientas que se usan para bajarse los datos de la web y extraer la información deseada.

La primera parte introduce algunas tecnologías web comunes, su relación y algunas herramientas para manipular y extraer información como las expresiones regulares. Después se presentan los formatos más comunes para almacenar información web (HTML, XML, JSON), así como herramientas para extraerla, como son XPath y CSS selectors. Finalmente se hace una introducción a algunos paquetes de R que permiten el procesamiento de información web y que se harán servir en los casos de estudio.

Objetivos:

Específicamente al final del curso los estudiantes deberían:

  • Estar familiarizados con las principales tecnologías para tratar la información guardada en la web.
  • Ser capaces de reconocer diferentes formatos que pueden ser usados para almacenar información.
  • Saber cómo extraer la información dados estos formatos usando paquetes específicos de R.

Contenidos:

  1. Introducción a tecnologías Web. Web scrapping y proyectos de web scrapping.
  2. Representación de los datos en la web HTML, XML, JSON. Otras tecnologías.
  3. Expresiones regulares para la gestión de datos.
  4. Parsing HTML y XML. Uso de CSS selectors y de XPath.
  5. Casos de estudio:
    (1) Parsing data desde documentos semi-estructurados.
    (2) Scraping Twitter para el Análisis de Sentimiento.
    (3) Recopilando datos de webs comerciales.

Bibliografía:

Profesorado:

Alex Sánchez Departamento de Genética, Microbiología y Estadística.
Facultad de Biología.
Universidad de Barcelona.

Unidad de Estadística y Bioinformática.
Vall d'Hebron Institut de Recerca.

Destinatarios:

El curso está dirigido a estudiantes, investigadores y profesionales del ámbito estadístico que deseen conocer la técnica del para extraer información de sitios webs, desde una perspectiva totalmente aplicada, basada en ejemplos prácticos.

Requisitos previos:

Para aprovechar las sesiones prácticas es necesario que los participantes tengan conocimientos básicos del software R.

Para la realización de este curso es imprescindible que los alumnos traigan su ordenador personal.

Detalles de organización:

El curso Web scrapping: Getting data from the web with R se impartirá los días 1, 3, 8 y 11 de abril de 2019 de 9:30 a 13:30.

La duración total del curso es de 16 horas.

El número mínimo de participantes para la realización del curso es 10 y el máximo es de 20.

Para formalizar la pre-inscripción: enlace

Una vez recibido vuestro formulario, os confirmaremos mediante un correo electrónico si tenéis plaza asignada o bien que estáis en lista de espera.

Cuotas de inscripción (2019):

Concepto Cantidad Importe
    Externo Esfera UAB
Inscripción (antes
del 17 de marzo)
1 asist 571,00 € 446,00 € 343,00 €
Inscripción (después
del 17 de marzo)
1 asist 743,00 € 668,00 € 514,00 €

Tarifa UAB: miembros acreditados de la UAB y estudiantes de cualquier universidad.
Tarifa Esfera: organismos, instituciones y empresas vinculadas a la esfera de la UAB o al sector público.
Tarifa Externa: organismos, instituciones y empresas vinculadas al sector privado.

La tarifa se establece en base persona/institución/empresa que realiza el pago.

POLÍTICA DE DESCUENTOS

- Descuentos especiales para personas en situación de paro. Presentando copia del documento de alta o de renovación de la solicitud de ocupación emitido por la Oficina de trabajo de la Generalitat de Catalunya.

- Descuentos especiales para grupos de personas procedentes de la misma empresa/institución. Enviar e-mail a s.estadistica@uab.cat.

- Becas para estudiantes de estadística, consultad condiciones en el formulario de preinscripción.

Descuentos no acumulables.

Detalles de pago:

Una vez recibida la solicitud de la preinscripción, recibiréis un correo electrónico informando de los detalles para realizar el pago de la inscripción.

Las personas interesadas en solicitar la factura a nombre de una empresa, deberán de hacer constar al justificante del pago de la cuota el nombre de su entidad y NO el del propio asistente al curso, Una vez se haya efectuado el pago del curso, y si no hay ningún motivo de fuerza mayor, no se devolverá el dinero de la inscripción.

Antes de efectuar el pago, esperad a recibir nuestra confirmación de la reserva de la plaza para el curso.

Campus d'excel·lència internacional U A B