{"id":48600,"date":"2022-10-26T14:47:36","date_gmt":"2022-10-26T14:47:36","guid":{"rendered":"https:\/\/wpstaging.mailrelay.com\/glossary\/web-scraping\/"},"modified":"2022-10-26T14:48:12","modified_gmt":"2022-10-26T14:48:12","slug":"web-scraping","status":"publish","type":"glossary","link":"https:\/\/wpstaging.mailrelay.com\/es\/glossary\/web-scraping\/","title":{"rendered":"Web scraping"},"content":{"rendered":"<p><html><body><\/p>\n<p>El <em>web scraping<\/em>, que suele ser traducido por &ldquo;raspado de p&aacute;ginas web&rdquo;, consiste en la navegaci&oacute;n autom&aacute;tica por una web y al mismo tiempo realizar la extracci&oacute;n de los datos encontrado para, posteriormente, analizar y manipular los datos extra&iacute;dos en base a ciertos par&aacute;metros.<\/p>\n<p>A la aplicaci&oacute;n o software creado para scrapear se le denomina bot, spider o crawler. Muchas webs tratar de protegerse de esas aplicaciones para salvaguardar sus datos. Un ejemplo de ello lo tenemos en los Captcha, que est&aacute;n en muchos formularios de suscripci&oacute;n y que evitan, no solo que nuestra base de datos de suscriptores recojan cuentas de correos falsas, tambi&eacute;n evitan el acceso de los crawlers a ciertas zonas de un sitio web.<\/p>\n<h2>3. &iquest;Objetivos del web scraping?<\/h2>\n<p>La informaci&oacute;n que se obtiene es muy valiosa, por ello el &ldquo;raspado de datos&rdquo; se lleva a cabo con muy diversos objetivos, se podr&iacute;a decir que son infinitos como lo son las posibilidades del data mining, no obstante algunos de los m&aacute;s comunes son:<\/p>\n<ul>\n<li>Crear bases de datos de correos, es quiz&aacute; uno de los usos m&aacute;s evidentes y luego con esas direcciones de crean bases de datos con los que realizar spam.<\/li>\n<li>Conocer a los competidores, dado que al scrapear su sitio web obtienes datos que a simple vista no se perciben y que son muy valiosos para posicionarnos en el mercado.<\/li>\n<li>Control y comparaci&oacute;n de ofertas online, tener constancia en todo momento de las ofertas que est&aacute;n ofreciendo en otras webs.<\/li>\n<li>Generar alertas, justo para monitorizas aspectos que nos interese controlar de una web. Localizar links que no funcionan, para con ello solucionarlos y mejorar la estrategia de posicionamiento SEO.<\/li>\n<li>Monitorear los precios de la competencia y localizar tendencias, con ello se puede determinar las estrategias de precios de las webs y reaccionar ante ello si fuera necesario.<\/li>\n<li>Tener presente cualquier cambio de una web, con lo que tenemos conocimiento de cualquier cambio que se haga en nuestra web o en otras.<\/li>\n<li>Rastrear la reputaci&oacute;n online y presencia online, gracias a lo que se puede conocer la posici&oacute;n que les otorgar los buscadores web a las entradas de un cierto blog.<\/li>\n<li>Recolecci&oacute;n de fichas de productos, para los ecommerce es muy interesante conocer la composici&oacute;n de las fichas de productos de la competencia, para mejorar las propias.<\/li>\n<li>Recopilar datos de varias webs y compararlos, para tener datos sobre las tendencias y t&eacute;cnicas usadas por dichas webs en diversos aspectos de inter&eacute;s.<\/li>\n<\/ul>\n<h2>2. &iquest;El web scraping es legal?<\/h2>\n<p>Esta pregunta es muy com&uacute;n y la respuesta es, que en ocasiones es legal y en ocasiones no lo es.<\/p>\n<p>Es decir, los scrapers siempre deben tener en cuenta los derechos de propiedad intelectual de las web para que ello no pueda ser considerado ilegal, y es legal siempre que los datos obtenidos est&eacute;n disponibles libremente para terceros en la propia web.<\/p>\n<p>Muchas veces los propietarios de las web ofrecen el uso de una API para que no sea necesario realizar scraping, y conseguir los datos de forma sencilla. A nadie le molesta, o casi nadie, que el crawler de Google acceda a su web para indexar los contenidos de la misma y, con ello, tomar las mejores posiciones en las SERPs. Para hacer scraping de forma legal se han de tener en cuenta estos aspectos:<\/p>\n<ul>\n<li>No se puede hacer uso de los datos recabados con fines ilegales o da&ntilde;inos.<\/li>\n<li>Siempre se ha cumplir con los derechos de propiedad intelectual y legal del sitio web.<\/li>\n<li>Si se requiere el registro de los usuarios o un contrato de utilizaci&oacute;n, dichos datos no podr&aacute;n ser recopilados mediante scraping.<\/li>\n<li>Los propietarios de las webs tienen derecho a colocar impedimentos t&eacute;cnicos para evitar el web scraping y no deben ser ignorados.<\/li>\n<\/ul>\n<h2>3. &iquest;Como protegemos del web scraping?<\/h2>\n<p>Aunque en tu sitio web manifiestes de forma explicita que no permites web scraping, nunca faltaran quienes deseen hacerlo, por lo que es necesario que implementes una serie de acciones para protegerte, como pueden ser:<\/p>\n<ul>\n<li>Adecuando el archivo .htaccess de acuerdo a los patrones de las IPs que intentan hacer web scraping, eso es: bloque&aacute;ndolas.<\/li>\n<li>Controlar las solicitudes entrantes, para ello la identificaci&oacute;n de IPs y su filtrado en el firewall es una medida muy validad para tratar de evitar el &ldquo;raspado&rdquo; de tu sitio web.<\/li>\n<li>Detectando el hotlinking y evitando, no permitiendo el uso recursos de nuestro servidor en lugares no autorizados.<\/li>\n<li>Limita las solicitudes por direcci&oacute;n IP, con lo que un atacante no puede establecer m&uacute;ltiples conexiones desde la misma IP.<\/li>\n<li>Modificando la estructura del HTML, dado que los rastreadores se centran en analizar el HTML, cambiarlo con cierta frecuencia dificulta al atacante hacer scraping de forma sencilla en tu web.<\/li>\n<li>Ofrece un API, para as&iacute; poder monitorizar y restringir los datos que se pueden extraer de tu sitio. Ello no evita el web scraping malintencionado pero reduce, en gran medida, el n&uacute;mero de veces que nuestra web se enfrente al raspado de datos.<\/li>\n<li>Usa honeypots o enlaces a contenido falso, es decir contenido especifico que no es visible para un visitante normal de nuestro sitio web. Detectando asi a los crawlers indeseados, siendo necesario deshabilitar esos enlaces en el archivo <a href=\"https:\/\/mailrelay.com\/es\/blog\/2021\/12\/09\/webs-con-problemas-basicos-que-impiden-la-optimizacion-en-los-motores-de-busqueda\/\" title=\"Problemas b&aacute;sicos que impiden la optimizaci&oacute;n en los motores de b&uacute;squeda\">robots.txt<\/a> para los bots de los buscadores.<\/li>\n<li>Uso de tokens de falsificaci&oacute;n de solicitud (CSRF), as&iacute; evitar&aacute;s que las automatizaciones de los bots realicen solicitudes abusivas.<\/li>\n<\/ul>\n<p><\/body><\/html><\/p>\n","protected":false},"template":"","class_list":["post-48600","glossary","type-glossary","status-publish","hentry"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.7 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Web scraping - Mailrelay<\/title>\n<meta name=\"robots\" content=\"noindex, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Web scraping - Mailrelay\" \/>\n<meta property=\"og:description\" content=\"El web scraping, que suele ser traducido por &ldquo;raspado de p&aacute;ginas web&rdquo;, consiste en la navegaci&oacute;n autom&aacute;tica por una web y al mismo tiempo realizar la extracci&oacute;n de los datos encontrado para, posteriormente, analizar y manipular los datos extra&iacute;dos en base a ciertos par&aacute;metros. A la aplicaci&oacute;n o software creado para scrapear se le denomina [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/wpstaging.mailrelay.com\/es\/glossary\/web-scraping\/\" \/>\n<meta property=\"og:site_name\" content=\"Mailrelay\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/Mailrelay\/\" \/>\n<meta property=\"article:modified_time\" content=\"2022-10-26T14:48:12+00:00\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:site\" content=\"@mailrelay\" \/>\n<meta name=\"twitter:label1\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data1\" content=\"5 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/glossary\\\/web-scraping\\\/\",\"url\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/glossary\\\/web-scraping\\\/\",\"name\":\"Web scraping - Mailrelay\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/#website\"},\"datePublished\":\"2022-10-26T14:47:36+00:00\",\"dateModified\":\"2022-10-26T14:48:12+00:00\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/glossary\\\/web-scraping\\\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/glossary\\\/web-scraping\\\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/glossary\\\/web-scraping\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Web scraping\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/#website\",\"url\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/\",\"name\":\"Mailrelay\",\"description\":\"Mailrelay.com\",\"publisher\":{\"@id\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"es\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/#organization\",\"name\":\"Mailrelay\",\"url\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/wp-content\\\/uploads\\\/2021\\\/12\\\/logo.png\",\"contentUrl\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/wp-content\\\/uploads\\\/2021\\\/12\\\/logo.png\",\"width\":190,\"height\":49,\"caption\":\"Mailrelay\"},\"image\":{\"@id\":\"https:\\\/\\\/wpstaging.mailrelay.com\\\/es\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/www.facebook.com\\\/Mailrelay\\\/\",\"https:\\\/\\\/x.com\\\/mailrelay\",\"https:\\\/\\\/www.youtube.com\\\/mailrelay-email-marketing\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Web scraping - Mailrelay","robots":{"index":"noindex","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"og_locale":"es_ES","og_type":"article","og_title":"Web scraping - Mailrelay","og_description":"El web scraping, que suele ser traducido por &ldquo;raspado de p&aacute;ginas web&rdquo;, consiste en la navegaci&oacute;n autom&aacute;tica por una web y al mismo tiempo realizar la extracci&oacute;n de los datos encontrado para, posteriormente, analizar y manipular los datos extra&iacute;dos en base a ciertos par&aacute;metros. A la aplicaci&oacute;n o software creado para scrapear se le denomina [&hellip;]","og_url":"https:\/\/wpstaging.mailrelay.com\/es\/glossary\/web-scraping\/","og_site_name":"Mailrelay","article_publisher":"https:\/\/www.facebook.com\/Mailrelay\/","article_modified_time":"2022-10-26T14:48:12+00:00","twitter_card":"summary_large_image","twitter_site":"@mailrelay","twitter_misc":{"Tiempo de lectura":"5 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/wpstaging.mailrelay.com\/es\/glossary\/web-scraping\/","url":"https:\/\/wpstaging.mailrelay.com\/es\/glossary\/web-scraping\/","name":"Web scraping - Mailrelay","isPartOf":{"@id":"https:\/\/wpstaging.mailrelay.com\/es\/#website"},"datePublished":"2022-10-26T14:47:36+00:00","dateModified":"2022-10-26T14:48:12+00:00","breadcrumb":{"@id":"https:\/\/wpstaging.mailrelay.com\/es\/glossary\/web-scraping\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/wpstaging.mailrelay.com\/es\/glossary\/web-scraping\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/wpstaging.mailrelay.com\/es\/glossary\/web-scraping\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/wpstaging.mailrelay.com\/es\/"},{"@type":"ListItem","position":2,"name":"Web scraping"}]},{"@type":"WebSite","@id":"https:\/\/wpstaging.mailrelay.com\/es\/#website","url":"https:\/\/wpstaging.mailrelay.com\/es\/","name":"Mailrelay","description":"Mailrelay.com","publisher":{"@id":"https:\/\/wpstaging.mailrelay.com\/es\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/wpstaging.mailrelay.com\/es\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"es"},{"@type":"Organization","@id":"https:\/\/wpstaging.mailrelay.com\/es\/#organization","name":"Mailrelay","url":"https:\/\/wpstaging.mailrelay.com\/es\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/wpstaging.mailrelay.com\/es\/#\/schema\/logo\/image\/","url":"https:\/\/wpstaging.mailrelay.com\/wp-content\/uploads\/2021\/12\/logo.png","contentUrl":"https:\/\/wpstaging.mailrelay.com\/wp-content\/uploads\/2021\/12\/logo.png","width":190,"height":49,"caption":"Mailrelay"},"image":{"@id":"https:\/\/wpstaging.mailrelay.com\/es\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/Mailrelay\/","https:\/\/x.com\/mailrelay","https:\/\/www.youtube.com\/mailrelay-email-marketing"]}]}},"uagb_featured_image_src":[],"uagb_author_info":{"display_name":"mailrelay","author_link":"https:\/\/wpstaging.mailrelay.com\/es\/blog\/author\/"},"uagb_comment_info":0,"uagb_excerpt":"El web scraping, que suele ser traducido por &ldquo;raspado de p&aacute;ginas web&rdquo;, consiste en la navegaci&oacute;n autom&aacute;tica por una web y al mismo tiempo realizar la extracci&oacute;n de los datos encontrado para, posteriormente, analizar y manipular los datos extra&iacute;dos en base a ciertos par&aacute;metros. A la aplicaci&oacute;n o software creado para scrapear se le denomina&hellip;","_links":{"self":[{"href":"https:\/\/wpstaging.mailrelay.com\/es\/wp-json\/wp\/v2\/glossary\/48600","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wpstaging.mailrelay.com\/es\/wp-json\/wp\/v2\/glossary"}],"about":[{"href":"https:\/\/wpstaging.mailrelay.com\/es\/wp-json\/wp\/v2\/types\/glossary"}],"version-history":[{"count":1,"href":"https:\/\/wpstaging.mailrelay.com\/es\/wp-json\/wp\/v2\/glossary\/48600\/revisions"}],"predecessor-version":[{"id":48776,"href":"https:\/\/wpstaging.mailrelay.com\/es\/wp-json\/wp\/v2\/glossary\/48600\/revisions\/48776"}],"wp:attachment":[{"href":"https:\/\/wpstaging.mailrelay.com\/es\/wp-json\/wp\/v2\/media?parent=48600"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}