Utrustning, verktyg och programvara
Nedan går att hitta några av de resurser och utrustning som CDHU använder i projekt och workshops. Du är även välkommen att besöka vår Github-sida för ytterligare resurser som vi har arbetat med vid CDHU och tillsammans med våra samarbetspartners. Kontakta oss gärna om projekt eller forskningsbehov, och håll ett öga på våra workshops!
Utrustning och övrigt
VR-utrustning
CDHU har tre Meta Oculus Quest 2 headsets som kan användas för anpassade 3D virtual reality-visualiseringar samt för att utforska VR-representationer i populärkultur (VR-spel och upplevelser).
NodeGoat GO och NodeGoat-server
NodeGoat-servern hos CDHU gör det möjligt för den installerade NodeGoat-mjukvaran att köra ett flertal parallella projekt, vart och ett tillgängligt för flera användare. CDHU administrerar forskningsmiljöerna för datamodellering och konfigurering av datauppsättningar gemensamt eller på egen hand. NodeGoat underlättar geografisk rumslig och temporal visualisering plus ett inbyggt nätverksanalysverktyg.
Recognito and Recogito-server
Med Recogito kan du arbeta med texter och bilder, identifiera och markera namngivna enheter, använda din data i andra verktyg eller ansluta till annan data på webben. Recogito erbjuder semantiska anteckningar och kopplingar till onlinedata utan att man behöver lära sig koda, samt erbjuder även en anpassad koppling till "gazetteers" för medelhavsarkeologi.
Computation och lagring
Lokala beräknings- och lagringsmöjligheter på CDHU finns på tre servrar: "Beast" och "Aurora", som används internt för snabb beräkning och informationsbehandling, samt "Beauty", som används för nätverksansluten lagring.
- 1 Dell-arbetsstation/server ("Beast"), som används internt för beräkning i CDHU:s tekniska infrastruktur. CPU: 2x Intel(R) Xeon(R) Gold 6240R @ 2,40GHz, 96 threads. GPU: 2x Nvidia Turing T4, 16 GB VRAM. RAM: 64GB. Lagring: Disk array konfigurerad i ZFS-spegelläge, vilket ger cirka 12 TB effektiv lagring.
- 1 Dell-arbetsstation/server ("Beauty"), används för nätverksansluten lagring i CDHU:s tekniska infrastruktur. CPU: Intel(R) Xeon(R) Gold 6226R @ 2,90GHz, 32 threads. RAM: 64GB. Lagring: Disk array konfigurerad i ZFS-paritet 3, vilket ger 50 TB effektiv lagring.
- 1 Dell-arbetsstation/server ("Aurora"), används internt för beräkning vid CDHU. CPU: 2x Intel Xeon Platinum 8260 2.4GH, 96 threads. RAM: 1TB. GPU: 3x Nvidia RTX A5000, 24GB VRAM. Lagring: 15 TB totalt.
Dokumentskanner och pappersgiljotin
Forskning som bedrivs vid CDHU i samarbete med Institutionen för idéhistoria använder för närvarande en Cannon G2090 dokumentskanner för snabb massscanning av högar av dokument upp till A3-storlek. Den här maskinen skannar 300-600 dpi, ~200 sidor per minut, med en automatisk dokumentmatare. Används tillsammans med giljotinen för att ta bort ryggar från böcker/inbundna volymer, detta möjliggör snabb, men destruktiv, digitalisering av kulturarvsmaterial.
Sketchfab
Sketchfab är en webbplats som används för att publicera, dela, upptäcka, köpa och sälja 3D-, VR- och AR-innehåll. Den tillhandahåller en viewer baserad på WebGL- och WebXR-teknikerna som gör det möjligt för användare att visa 3D-modeller på webben, för att ses i valfri mobil webbläsare, stationär webbläsare eller VR-headset. Besök gärna vår Sketchfab, där du kan kika på olika 3D-modeller som är del av projekt vi har arbetat med. Bland annat finns det 3D-modeller av miljöer, främst arkeologiska utgrävningar, som ingår i forskningsprojekt där Uppsala universitet är involverat. Du kan också ta en titt på rekonstruktioner av historiska miljöer, såsom den befästa senhelladiska I-bosättningen vid Malthi i norra Messenien, Grekland och 1700-talsbyn Ekeby utanför Uppsala.
Programvara, skript och modeller
För en hel överblick av CDHUs programvara, skript och modeller, besök vår Github-sida.
Attention HTR model
Attention HTR är en uppmärksamhetsbaserad sekvens-till-sekvens-modell för Handwritten Text Recognition (HTR). För att övervinna bristen på träningsdata utnyttjar detta skript modeller som är förtränade på scentextbilder som en utgångspunkt för att skräddarsy modellerna för handskriftsigenkänning. Källkod och förtränade modeller finns tillgängliga på GitHub.
Marginalia och maskininlärning (Pytorch)
För att upptäcka text skriven i dokumentmarginaler eller handskrivna anteckningar har vi en PyTorch-implementering av ett Handwritten Text Recognition (HTR)-system som fokuserar på automatisk upptäckt och igenkänning av handskrivna marginaliatexter. Snabbare R-CNN-nätverk används för detektering av marginaler och AttentionHTR används för ordigenkänning. Datan kommer från tidiga boksamlingar (tryckta), som finns på Uppsala universitetsbibliotek, med handskrivna marginaliatexter. Källkod och förtränade modeller finns tillgängliga på Github. Detta är ett pågående arbete.
Word rain: Semantically motivated word clouds
Denna utveckling av ett mjukvarubibliotek för textvisualisering bygger på grunda och djupa neurala nätverk. Det är ett pågående arbete som leds av CDHU, i samarbete med Språkbanken Sam. Källkod finns tillgänglig på Github.
Libralinked: Modellering av skandinavisk biblioteksdata
Dessa skript genererar interaktiv grafik och visar dem som html, från webbskrapning av Nationalbiblioteket. Den grafiska genereringen kan också generaliseras, eftersom data är tillräckligt strukturerade till exempel genom en CSV-fil.
Epub text-extraction tool
Epub-textextraktionsverktyget är ett verktyg för att extrahera textdata från EPUB-böcker. Skripten konverterar epubs till txt-filer och samlar grundläggande statistik som till exempel antal ord, vanligaste ord, med mera.
Skript och anteckningsböcker för att skrapa SOU-pdf:er
Denna kod skrapar alla urls till pdf:s från Kungliga Biblioteket och matar ut en CSV-fil. Denna repositorium innehåller en anteckningsbok som förvandlar csv-filen till ett nedladdningsskript; den rensar och normaliserar också filnamn.
Skript för optisk teckenigenkänning i omgångar
Denna repositorium innehåller olika skript och verktyg för att förbereda (spränga, konvertera, byta namn) och OCR:a pdf:er med Tesseract-OCR. Vi har även ett OCR-program baserat på Pytesseract – wrapper för Tesseract. Den innehåller språkmodeller för att förbättra OCR-prestandan.
BerryBERT
Detta är en BERT-textklassificering för finska OCR-texter, som ursprungligen användes för forskning om kommersialiseringen av vilda lingon. Detta arbete är en del av CDHUs pilotprojekt 2021-2022, med projektet med titeln "Text Mining Commodification: The Geography Of the Nordic Lingonberry Rush, 1860-1910". Källkod finns tillgänglig på Github.