Møtereferat fra CLARIN WP 2/5 Focus Workshop
Berlin 6.-9. oktober 2008
Norske deltakere (i hovedsak på WP5-delen av workshopen):
Anders Nøklestad, UiO; Ingunn Amdal, NTNU
Innledning:
Målet er at dokumentene fra de pågående aktivitetene skal være klare for ekstern publisering før 2009. Oppdaterte versjoner med kommentarer etter møtet skal være klar i løpet av oktober.
1. Oversikt over ressurser
Siden sist møte har det vært en kartlegging av språkdata og verktøy blant medlemmene i Clarin. Dette var i fritt format for å gjøre terskelen for registrering lav og det har kommet inn flere hundre registreringer. Det var en oppfordring til å få andre enn medlemmer til også å registrere data.
2. Tale- og multimodale data
Rolf Carlson fra KTH snakket om talespråkskorpus generelt med eksempler fra Sverige. La spesiell vekt på SpeechDat som har definert standarden for mange tilsvarende databaser seinere både når det gjelder innsamling, organisering og annotering.
Problem:
- Mye taledata er samplet inn for bruk i taleteknologi og taleteknologimiljøet ser ikke behov for Clarin i og med at de har andre kanaler (ELRA, LDC)
- Lingvister er ofte ikke klar over de dataene som er tilgjengelig via disse kanalene. Ingunn Amdal fra NTNU snakket om norske talespråksressurser: Språkbanken, NST-materialer, Telenor, Universitetsdata.
Noen punkter fra den etterfølgende diskusjonen:
- uenighet om data som allerede er tilgjengelig via f.eks ELRA også bør registreres av Clarin. Er ELRA-grensesnitt brukervennlig nok for bruker fra humaniora? Hva med data som ikke er interessante for ELRA (les: ikke kommersielle)?
- at man uansett bør prøve ta utgangspunkt i eksisterende metadataskjemaer for talespråk i stedet for å finne opp et nytt
- at ressurser først og fremst bør tilrettelegges for akedemia og bare sekundært for kommersiell bruk
- utfordringer mht overføring av store taledatabaser når verktøyene ligger på én server og dataene på en annen
- Det er lite registrering av tale- og multimodale data, få medlemmer fra taleteknologimiljøet. Hvordan få taleteknologimiljøet interessert i å registrere ressursene sine i Clarin? Forslag om spesialsesjon om Clarin på neste store talekonferanse (Interspeech-2009 i Brighton)
Wolfgang Wahlster, DFKI, snakket om multimodale ressurser: Extensible MultiModel Annotation markup language (EMMA): W3C-anbefaling
3. Brukergrensesnitt (views)
Andreas Witt snakket om grensesnitt for taksonomier. Dokument: “Language Resources, Taxonomies and Metadata (WP5 – White Paper)” fra 2008-09-11.
Det er to hovedmåter å finne data på: browsing (se på hva som finnes i gitte kategorier) og querying (vet akkurat hva en leter etter). Witt fokuserte på browsing-delen. Oversikt over noen eksisterende web-grensesnitt var presentert i white paper tilgjengelig på Clarin-sidene før møtet og ble gjennomgått:
Eksempler:
- IMDI browser (fleksibel mht definisjon av metadata og hierarkisk organisasjon av disse)
- ACL web registry (ACLWiki)
- ELRA Catalogue
Witt foreslår å bruke forskjellige alternative visningsmoduser som man finner f.eks. i web-butikker: språk, modalitet, domene, tilnærming, korpusverktøy, leksikalske verktøy, tasks, annotering, evaluering, brukertype, medium, m.m.
Fra diskusjonen:
- Det bør være et sett av standard-views pluss at brukerne bør ha mulighet til å definere sine egne.
- Forslag om å legge til et felt der brukerne av ressursene kan legge inn vurdering av ressursene (også inspirert fra web-butikker)
4. Metadata
Dokument: “Metadata Infrastructure for Language Resources and Technology” fra 2008-09-30.
Organisatorene vil ha input om metadata-dokumentet mht manglende verdier for kategoriene innenutgangen av oktober. De vil produsere en ny versjon av dokumentet innen utgangen av november, og i desember skal vi alle prøve å registrere noen ressurser i skjemaet for å se hvordan det fungerer i praksis.
Utgangspunkt i eksisterende standarder: definert av standardiseringsorganisasjoner, de-facto-standarder eller ofte brukt.
Metadata-skjemaet må være fleksibelt, men samtidig bør man tilby noen metadata-”maler” for ulike typer ressurser. Definerer 3 typer attributter:
- lukket sett verdier
- åpent sett, dvs fri tekst
- semi-lukket, dvs det går an å utvide mulige verdier etter forslag
Kun få attributter vil være obligatoriske (1-3 stk) for å ha lav terskel på registring. Vil definere et litt større sett av attributter som er obligatorisk som “Clarin-standard”. Oppfordre bevilgende myndigheter til å kreve “Clarin-standard” på ressurser de bevilger penger til. Vil også definere flere attributter for å kunne registrere detaljer “frivillig”.
Det vil bli en workshop om infrastrukturverktøy (Shibboleth m.m.) i februar 2009. Vil bli annonsert på e-post.
5. Sentre (i fellessesjon med WP2)
Institusjoner som vil bidra til CLARIN, kan registrere seg som et senter av type A, B eller C. Registreringsskjema vil bli sendt på e-post.
- Senter av type C tilbyr metadata
- Senter av type B tilbyr også selve ressursene i tillegg til metadata
- Senter av type A blir en type senter med ekstra strenge krav til pålitelighet.
Sentrene må garantere at det de tilbyr forblir tilgjengelig også i framtiden. Det ligger noen eksempler på nett, for eksempel for Språkbanken i Göteborg.