Mannheimer Webpanel

Datentypen und Schlüsselwörter

  • Datentyp: Unternehmens-Individualdaten
  • Schlüsselwörter: Semi-strukturierte Daten, Textdaten, Webseiten

    Beschreibung

    Das ZEW-FDZ stellt ein neues Panel an semi-strukturierten Webdaten auf Unternehmensebene zur Verfügung – das Mannheimer Webpanel. Das Mannheimer Webpanel umfasst unternehmensspezifische Textdaten, die aus den Webseiten einer großen Anzahl deutscher Unternehmen gewonnen werden konnten. Eine genaue Beschreibung der angewendeten Webscraping-Methode sowie eine Untersuchung der Datengrundlage (Gesamtheit der Webseiten von Unternehmen in Deutschland) kann im Arbeitspapier: Kinne, Jan and Janna Axenbeck (2018), Web Mining of Firm Websites: A Framework for Web Scraping and a Pilot Study for Germany, ZEW Discussion Paper No. 18-033, Mannheim. Download (PDF-Datei, nicht-barrierefrei, 2,36 MB) nachgelesen werden.

    Folgende Variablen stehen unter anderem zur Verfügung:

    • ID – eindeutiger Unternehmensschlüssel.
    • dl_rank – üblicherweise beinhaltet eine Unternehmens-Webseite mehrere untergeordnete Internetseiten (Webpages). In diesem Zusammenhang bildet die Variable dl_rank die chronologische Reihenfolge, in welcher die einzelnen Internetseiten heruntergeladen wurden, ab. Die Startseite der Unternehmens-Webseite hat den Rang 0, die erste untergeordnete Webpage hat den Rang 1, und so weiter.
    • dl_slot – Name der Domäne der Unternehmens-Webseite.
    • title – in den html-Metadaten hinterlegter Titel der jeweiligen Webpage.
    • keywords – in den html-Metadaten hinterlegte Liste an Schlüsselwörter der jeweiligen Webpage.
    • description – in den html-Metadaten hinterlegte Beschreibung der jeweiligen Webpage.
    • text – heruntergeladener Text der Webpage.
    • timestamp – der genaue Zeitpunkt, zu welchem die Internetseite heruntergeladen wurde.
    • url – URL der Webpage.

    ZEW-Wissenschaftler/innen / Datenproduzenten/-innen

    Dr. Sandra Gottschalk

    Jan Kinne

    Janna Axenbeck