Kenetix | Scraping as a service

Plan van aanpak

Data-analyse
Stap 1
Data-analyse

Definiëren van de datasets
Definiëren van de gegevens die men wil capteren en de periodiciteit. (Enkel data of ook de fysische fotobestanden van artikels of producten). In deze fase zal in eerste instantie ook een offerte kunnen opgesteld worden. De kostprijs zal steeds op maat samengesteld worden. Tal van factoren zullen hier een invloed op hebben:
- Periodiciteit (elke week, elke maand, jaarlijks of 1-malig.): Bij 1-malige scraping zal geen hosting worden aangerekend.
- Foto’s en afbeeldingen: hiervoor zal extra bandbreedte en storage moeten voorzien worden. (via verschillende gratis tooltjes kan uzelf ook de bestanden downloaden indien gewenst)
- Indexeren van foto’s: in dit geval gebruiken we een AI-bot die tekst op foto’s zal herkennen en deze ook indexeren. Dit geeft extra informatie over het product dewelke niet als tekst beschikbaar zijn via de website
- Afwijkende exportformaten: standaard voorzien we het JSON-formaat.
Ontwikkeling scraper
Stap 2

Ontwikkeling scraper

Hier begint het zware werk

Scrapen op een ethische manier: We zullen steeds voldoende tijd voorzien tussen de verschillende requesten. Het kan uiteraard niet de bedoeling zijn om de scrapende website down te leggen. De teksten en foto’s vallen echter steeds onder het auteursrecht. De klant zal hier zelf de verantwoordelijkheid nemen qua gebruik. In de meeste gevallen zal de data enkel gebruikt worden om analyses op los te laten. (dus geen publicatie)
Aanleveren eerste test bestand
Stap 3

Aanleveren eerste test bestand

De eerste test bestanden
Eventuele aanpassingen
Stap 4

Eventuele aanpassingen

Niets is van de eerste keer 100% in orde
Oplevering datasets
Stap 5

Oplevering datasets

Aanleveren van het definitief bestand en opzetten van een scraper job. Deze zal dan bv. om de maand de gegevens scrapen en automatisch aanleveren.
Maintenance
Stap 6

Onderhoud

Niet echt nodig bij 1-malige scrapings

Indien de eigenaars van de website een nieuwe versie publiceren, is het mogelijk dat een volledige nieuwe scraper zal moeten ontwikkeld worden. Via een extra scraping-notificatie, zal u onmiddellijk een bericht ontvangen indien een website gewijzigd is van locatie (op basis van IP) en/of een website drastisch is veranderd. (Deze test gebeurt op basis van 5 technische punten.)

Scraping as a service

Ethical scraping

Plan van aanpak

Data-analyse

Data-analyse

Ontwikkeling scraper

Ontwikkeling scraper

Aanleveren eerste test bestand

Aanleveren eerste test bestand

Eventuele aanpassingen

Eventuele aanpassingen

Oplevering datasets

Oplevering datasets

Maintenance

Onderhoud