Data

Vores data er video- og lydoptagelser af mennesker som snakker sammen på dansk. De er så vidt muligt optaget i disse menneskers "naturlige" omgivelser. Med "naturlig" mener vi i denne sammenhæng at vi har fået tilladelse til at optage folk i deres dagligdag, enten på arbejde eller i private sammenhænge. Samtalerne er altså ikke arrangeret til ære for optagelsen, de foregår ikke i særlige laboratorieomgivelser, og folk har ikke fået bestemte opgaver af data-indsamlerne.

Formålet med denne indsamlingsmetode er at få indsigt i det samtalesprog folk går og bruger til at interagere med. De mennesker der deltager, har deres egne formål med samtalen og med hinanden, og de siger og gør ting fordi det betyder noget for dem. Vi har på den måde fået lov at lave en lille aftapning af samtaledeltagernes liv.

Alle samtaledeltagere har givet deres samtykke til optagelserne, og er klar over at de bliver optaget. De er altså bevidste om kameraet  eller lydoptageren, hvilket selvfølgelig kan påvirke deres adfærd.  Men det forhindrer ikke folk i alligevel at sige og gøre de ting, de har brug for at gøre i interaktionen, og vi ser derfor ikke bevidstheden om optagelserne som noget principielt problem.

De data vi har brugt til vores egne undersøgelser, stammer fra to kilder:

(1) Samtalebanken, som er en offentligt tilgængelig samling af samtaler. De mennesker som deltager i samtalebankens samtaler har givet tilladelse til at deres samtaler er blevet lagt på internettet. På Samtalebankens hjemmeside kan man høre og se optagelser og nogle ret nøjagtige transskriptioner af dem. Når vi bruger uddrag fra samtalebanken, linker vi til de pågældende samtaler og transskriptioner.

(2) AULing, som er vores egen samling af optagelser og transskriptioner af samtaler. Folk som deltager i disse samtaler, har givet tilladelse til at forskere og studerende som har underskrevet en fortrolighedserklæring, ser de originale data. Derfor kan vi ikke linke til data.

Hver gang vi bruger et uddrag fra en samtale, har vi lyttet/kigget originaldata igennem, og vi har gen-transskriberet det så det passer med vores udskriftssystem, så vi dermed kan stå inde for det vi har skrevet ned. I transskriptionerne er oplysninger som kunne føre til genkendelse af deltagerne, blevet anonymiseret. Navne og steder m.m. er derfor fiktive.

 


Yderligere læsning

Clarin.dk har lavet en infrastruktur som blandt andet indeholder talesprogskorpora, herunder samtalebanken.

Femø Nielsen & Nielsen (2005) har afsnit om dataindsamling og behandling.

Samtalebanken er et korpus af samtaler som ligger med lyd, billede og grundige transskriptioner på nettet, klar til brug for enhver.

Steensig (2001) indeholder afsnit om principper ved dataindsamling og om udskrivning.

Steensig (2005) redegør for principperne i samtaleanalytisk udskrivning og sammenligner forskellige udskrivningssystemer.

Steensig (2010) gør kort rede for nogle af principperne bag samtaleforskningens indsamling og brug af data.

Wagner (2003) er en tilgængelig introduktion til brugen af samtaledata