Skip to content

Latest commit

 

History

History
51 lines (33 loc) · 1.75 KB

README.md

File metadata and controls

51 lines (33 loc) · 1.75 KB

spaCy Workshop #ardddj 2022✨

Dieses Repository enthält die Notebooks und spaCy Projects zum Workshop.

🔧 Requirements

Es werden folgende Bibliotheken benötigt:

pip install spacy

pip install jupyter

Alternativ kann man innerhalb des Projektordners diese Codezeile ausführen:

pip install -r requirements.txt

🔧 Sprachmodell

Sowohl die Notebooks als auch das spaCy Projekt benötigen das de_core_news_lg Sprachmodell:

spacy download de_core_news_lg

📓 Notebooks

Im Ordner spaCy_notebooks sind verschiedene Jupyter Notebooks welche einige Grundlagen von spaCy erklären und präsentieren.

  • 01_Einführung_Grundlagen.ipynb
  • 02_Lexikalische Attribute.ipynb

Command um Jupyter Notebook zu starten:

python -m jupyter notebook

Viele dieser Inhalte sind Ausschnitte aus dem kostenlosen spaCy Online Kurs.

🪐 spaCy Project: derStandard.at

Dieses spaCy Projekt beinhaltet Prodigy und spaCy Workflows um Kommentare zu Artikeln aus derStandard.at zu annotieren und ein Text Klassifikations Modell zu trainieren.

Die genutzten Daten sind aus der Veröffentlichung: One Million Posts: A Data Set of German Online Discussions

@InProceedings{Schabus2017,
  Author    = {Dietmar Schabus and Marcin Skowron and Martin Trapp},
  Title     = {One Million Posts: A Data Set of German Online Discussions},
  Booktitle = {Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR)},
  Pages     = {1241--1244},
  Year      = {2017},
  Address   = {Tokyo, Japan},
  Doi       = {10.1145/3077136.3080711},
  Month     = aug
}