Library Technology Guides

Document Repository

BicatWise gaat webscraping belemmeren: Vanaf versie 6.2.0

Press Release: Huijsmans en Kuijpers Automatisering [September 23, 2012]

23 oktober 2012.

Wat is webscraping?

Bij webscraping wordt door een onbekend programma (het scraping-programma) gegevens/data gefilterd/opgehaald uit een website of uit een web-functie.

De ontwikkelaar van een scraping-programma analyseert hoe de interactie verloopt tussen een gebruiker van een web-functie (bijv. een catalogus of een mijn-menu-functie) en het achterliggende bedrijfssysteem (bijv. bicatWise). Op basis van deze analyse wordt door middel van scraping direct de interactie met het bedrijfssysteem aangegaan waardoor de gewenste data kan worden opgehaald.

Het is niet zo dat direct alle gegevens op straat komen te liggen. De standaard beveiligingsmaatregelen t.b.v. klanten (gebruikersnaam/wachtwoord) zijn ook nu nog van kracht. Alleen als klanten deze zelf vrijgeven, worden persoonlijke gegevens ontsloten.

Geen (legale) toegang tot data

Webscraping wordt toegepast als de ontwikkelaar van het scraping-programma op een andere manier geen (legale) toegang tot de data kan verkrijgen of als de ontwikkelaar zich niet bekend wenst te maken.

BicatWise heeft nu echter geen enkel verweer tegen de manier waarop de betreffende data wordt ontsloten. Vanuit bicatWise is niet direct te zien of een klant de web-functie gebruikt óf dat een scraping-programma dit doet. Van een aantal scraping-programma's is wel bekend vanuit welk IP-nummer de aanvragen komen. Een bibliotheek kan er dan voor kiezen om de toegang vanuit dit IP-nummer te blokkeren.

Extra dataverkeer, privacy-gegevens extern bewaard

Naar onze mening is ook de beveiliging in het geding. Door de werking van scraping-programma's zal er extra dataverkeer over het internet gaan en zullen de door een scraping-programma verzamelde gebruikersnamen en wachtwoorden op een externe plek bewaard worden. Van belang is hierbij ook de ontwikkeling dat via de standaard web-functies van bicatWise steeds meer privacy gevoelige gegevens kunnen worden opgevraagd. Denk hierbij aan o.a de NAW-gegevens, e-mail etc.

Dat data wordt onttrokken door middel van web-scraping te gebruiken, is niet nieuw. Alleen ziet HKA dat het gebruik de laatste tijd substantieel toeneemt. Verder zien wij ook dat de wijze waarop de gegevens worden opgehaald door deze scraping-programma's niet altijd even efficiënt worden uitgevoerd. Gevolg hiervan is dat de belasting van de bicatWise-servers duidelijk toeneemt, zónder dat de bibliotheek hier enige controle op heeft.

Toegang tot klantgedeelte belemmerd voor web-scraping

De gegenereerde data uit bicatWise is uitsluitend bestemd voor eigen diensten en webfunctionaliteit. Met het uitbrengen van versie 6.2.0 van bicatWise zijn er voldoende alternatieven beschikbaar om op een legale manier data vanuit bicatWise te leveren aan derden. Een bibliotheek kan daarbij zelf bepalen welke (externe) partijen toegang krijgen tot welke data/functies. Verder is vanaf versie 6.2.0 ook de BNL-servicebus beschikbaar. Externe partijen kunnen onderzoeken of de gewenste data via de landelijke infrastructuur verkregen kan worden.

Vanaf versie 6.2.0 zullen wij - min of meer gedwongen - maatregelen nemen om de werking van scraping-programma's te gaan belemmeren. Hierbij zullen wij ons eerst gaan richten op het verhinderen dat scraping-programma's toegang krijgen tot het klantengedeelte van bicatWise.

Vragen?

Mocht u naar aanleiding van bovenstaande vragen hebben, dan kunt u altijd met ons in contact treden. Wij voorzien u graag van een nadere uitleg.

Permalink:  
View Citation
Publication Year:2012
Type of Material:Press Release
Language Dutch
Issue:September 23, 2012
Publisher:Huijsmans en Kuijpers Automatisering
Company: Huijsmans en Kuijpers Automatisering
Record Number:18405
Last Update:2024-04-16 17:14:14
Date Created:2013-10-04 17:12:09
Views:77