Mannheimer Webpanel

Datentypen und Schlüsselwörter

  • Datentyp: Unternehmens-Individualdaten
  • Schlüsselwörter: Semi-strukturierte Daten, Textdaten, Webseiten

    Beschreibung

    Das ZEW-FDZ stellt ein neues Panel an semi-strukturierten Webdaten auf Unternehmensebene zur Verfügung – das Mannheimer Webpanel. Das Mannheimer Webpanel umfasst unternehmensspezifische Textdaten, die aus den Webseiten einer großen Anzahl deutscher Unternehmen gewonnen werden konnten. Eine genaue Beschreibung der angewendeten Webscraping-Methode sowie eine Untersuchung der Datengrundlage (Gesamtheit der Webseiten von Unternehmen in Deutschland) kann in diesem Arbeitspapier nachgelesen werden. Folgende Variablen stehen unter anderem zur Verfügung:

    • ID – eindeutiger Unternehmensschlüssel.
    • dl_rank – üblicherweise beinhaltet eine Unternehmens-Webseite mehrere untergeordnete Internetseiten (Webpages). In diesem Zusammenhang bildet die Variable dl_rank die chronologische Reihenfolge, in welcher die einzelnen Internetseiten heruntergeladen wurden, ab. Die Startseite der Unternehmens-Webseite hat den Rang 0, die erste untergeordnete Webpage hat den Rang 1, und so weiter.
    • dl_slot – Name der Domäne der Unternehmens-Webseite.
    • title – in den html-Metadaten hinterlegter Titel der jeweiligen Webpage.
    • keywords – in den html-Metadaten hinterlegte Liste an Schlüsselwörter der jeweiligen Webpage.
    • description – in den html-Metadaten hinterlegte Beschreibung der jeweiligen Webpage.
    • text – heruntergeladener Text der Webpage.
    • timestamp – der genaue Zeitpunkt, zu welchem die Internetseite heruntergeladen wurde.
    • url – URL der Webpage.

    ZEW-Wissenschaftler/innen / Datenproduzenten/-innen

    Dr. Sandra Gottschalk

    Jan Kinne

    Julian Dörr