Web scrapping: Getting data from the web with R

Web scrapping: Getting data from the web with R

Presentació:

Avui en dia, un aspecte important quan es treballa amb dades és que, molt sovint, aquestes es poden obtenir de la web tot i que no és necessàriament senzill, donat que es necessita descarregar-les i pretractar-les amb diferents processos, que depenen del format en què estan guardades a la web.

En aquest curs s'exploren alguns d'aquests formats juntament amb els mètodes i eines que es fan servir per baixar-se les dades de la web i extreure'n la informació desitjada.

La primera part introdueix algunes tecnologies web comunes, la seva relació i algunes eines per manipular i extreure la informació com les expressions regulars. Després es presenten els formats més comuns per emmagatzemar informació web (HTML, XML, JSON), així com eines per extreure-la, com ara XPath i CSS selectors. Finalment es fa una introducció a alguns paquets de R que permeten el processament d'informació web i que es faran servir en els casos d'estudi.

Objectius:

Específicament al final del curs els estudiants haurien:

  • Estar familiaritzats amb les principals tecnologies per tractar la informació guardada a la web.
  • Ser capaços de reconèixer diferents formats que poden ser utilitzats per emmagatzemar informació.
  • Saber com extreure la informació donats aquests formats usant paquets d'R específics.

Continguts:

  1. Introducció a tecnologies Web. Web scrapping i projectes de web scrapping.
  2. Representació de les dades a la web HTML, XML, JSON. Altres tecnologies.
  3. Expressions regulars per la gestió de dades.
  4. Parsing HTML i XML. Ús de CSS selectors i de XPath.
  5. Casos d'estudi:
    (1) Parsing data des de documents semi-estructurats.
    (2) Scraping Twitter per l’Anàlisi de Sentiment.
    (3) Recopilant dades de webs comercials.

Bibliografia:

Professorat:

Alex Sánchez Departament de Genètica, Microbiologia i Estadística.
Facultat de Biologia.
Universitat de Barcelona.

Unitat d'Estadística i Bioinformàtica.
Vall d'Hebron Institut de Recerca.

Destinataris:

El curs està dirigit a estudiants, investigadors i professionals de l'àmbit estadístic que desitgin conèixer la tècnica del Web Scraping per extreure informació dels llocs webs, des de una perspectiva totalment aplicada, basada en exemples pràctics.

Requeriments previs:

Per aprofitar les sessions pràctiques es necessari que els participants tinguin coneixements bàsics del software R.

Per la realització d'aquest curs és imprescindible que l'alumne porti el seu ordinador personal.

Detalls d'organització:

El curs Web scrapping: Getting data from the web with R s'impartirà els dies 1, 3, 8 i 11 d'abril de 2019 de 9:30 a 13:30.

La duració total del curs és de 16 hores.

El nombre mínim de participants per a la realització del curs és 10, i el màxim és de 20.

Per formalitzar la pre-inscripció: enllaç

Un cop rebut el vostre formulari, us confirmarem mitjançant un correu electrònic si teniu plaça assignada o bé que esteu en llista d'espera.

Quotes d'inscripció (2019):

Concepte Quantitat Import
    Extern Esfera UAB
Inscripció (abans
del 17 de març)
1 assist 571,00 € 446,00 € 343,00 €
Inscripció (després
del 17 de març)
1 assist 743,00 € 668,00 € 514,00 €

Tarifa UAB: membres acreditats de la UAB i estudiants de qualsevol universitat.
Tarifa Esfera: organismes, institucions i empreses vinculades a l'esfera de la UAB o al sector públic.
Tarifa Externa: organismes, institucions i empreses vinculades al sector privat.

La tarifa s'estableix en base la persona/institució/empresa que realitza el pagament.

POLÍTICA DE DESCOMPTES

- Descomptes especials per a persones en situació d'atur. Presentant còpia del document d'alta o de renovació de la sol·licitud d'ocupació emès per l'Oficina de treball de la Generalitat de Catalunya.

- Descomptes especials per a grups de persones procedent de la mateixa empresa/institució. Enviar e-mail a s.estadistica@uab.cat.

Beques per a estudiants d'estadística, consulteu condicions en el formulari de preinscripció.

Descomptes no acumulables.

Detalls de pagament:

Un cop rebuda la sol·licitud de la preinscripció, rebreu un correu electrònic informant-vos dels detalls per a realitzar el pagament de la inscripció.

Les persones interessades en sol·licitar la factura a nom d'una empresa, hauran de fer constar al justificant del pagament de la quota el nom de la seva entitat i NO el del propi assistent al curs. Un cop s'hagi efectuat el pagament del curs, i si no hi ha cap motiu de força major, no es retornaran els diners de la inscripció.

Abans d'efectuar el pagament, espereu a rebre la nostra confirmació de la reserva d'una plaça per al curs.

Campus d'excel·lència internacional U A B