Mannheimer Webpanel
Datentypen und Schlüsselwörter
- Datentyp: Unternehmens-Individualdaten
- Schlüsselwörter: Semi-strukturierte Daten, Textdaten, Webseiten
Beschreibung
Das ZEW-FDZ stellt ein neues Panel an semi-strukturierten Webdaten auf Unternehmensebene zur Verfügung – das Mannheimer Webpanel. Das Mannheimer Webpanel umfasst unternehmensspezifische Textdaten, die aus den Webseiten einer großen Anzahl deutscher Unternehmen gewonnen werden konnten. Eine genaue Beschreibung der angewendeten Webscraping-Methode sowie eine Untersuchung der Datengrundlage (Gesamtheit der Webseiten von Unternehmen in Deutschland) kann im Arbeitspapier: Kinne, Jan and Janna Axenbeck (2018), Web Mining of Firm Websites: A Framework for Web Scraping and a Pilot Study for Germany, ZEW Discussion Paper No. 18-033, Mannheim. Download (PDF-Datei, nicht-barrierefrei, 2,36 MB) nachgelesen werden.
Folgende Variablen stehen unter anderem zur Verfügung:
- ID – eindeutiger Unternehmensschlüssel.
- dl_rank – üblicherweise beinhaltet eine Unternehmens-Webseite mehrere untergeordnete Internetseiten (Webpages). In diesem Zusammenhang bildet die Variable dl_rank die chronologische Reihenfolge, in welcher die einzelnen Internetseiten heruntergeladen wurden, ab. Die Startseite der Unternehmens-Webseite hat den Rang 0, die erste untergeordnete Webpage hat den Rang 1, und so weiter.
- dl_slot – Name der Domäne der Unternehmens-Webseite.
- title – in den html-Metadaten hinterlegter Titel der jeweiligen Webpage.
- keywords – in den html-Metadaten hinterlegte Liste an Schlüsselwörter der jeweiligen Webpage.
- description – in den html-Metadaten hinterlegte Beschreibung der jeweiligen Webpage.
- text – heruntergeladener Text der Webpage.
- timestamp – der genaue Zeitpunkt, zu welchem die Internetseite heruntergeladen wurde.
- url – URL der Webpage.