Internationalisierung bei XML Felix Sasaki DFKI / Fachhochschule Potsdam W3C deutsch-österr. Büro [email protected] Markupforum 2011 Sasaki – Markupforum 2011

Über mich • Studium der Japanologie und Linguistik in Deutschland und Japan • Dissertation im Bereich Computerlinguistik zu Webtechnologien und mehrsprachigen Daten • 2005-2009: Arbeit in Japan beim W3C, hauptsächlich in der „Internationalization Activity“ • Seit 2009: Professor an der FH Potsdam / Manager des W3C deutsch-österr. Büro • Seit Herbst 2010: Senior Researcher am DFKI (Deutsches Forschungszentrum für Künstliche Intelligenz) Sasaki – Markupforum 2011

2

Über W3C Büros • Ein Kontaktpunkt wenn man ... – W3C (noch nicht) gut kennt – Spezifische Fragen hat wie „Wer arbeitet an Thema ABC ...“ – Neue Themen in Webstandardisierung einbringen will und sich fragt wo sie passen könnten

• Bitte sprechen Sie uns an – zu obigen Themen, und sonst auch  Sasaki – Markupforum 2011

3

INTERNATIONALISIERUNG BEI XML – EINIGE TRADITIONELLE THEMEN Sasaki – Markupforum 2011

4

Nutzung von Unicode in (XML)Technologien

Sasaki – Markupforum 2011

5

Internationalisierte Webadressen • Internationalized Resource Identifier (IRI) • I18N im Pfad einer Webadresse, z.B.:

Sasaki – Markupforum 2011

6

Sprachenidentifikation via xml:lang Sprachtags wie “en”, “en-us”, “de”, “ja”, ... Für • content-negotation

Sasaki – Markupforum 2011

7

Sprachenidentifikation via xml:lang Sprachtags wie “en”, “en-us”, “de”, “ja”, ... Für • content-negotation • Sprachspezifisches Layout [雪 zh-CN] [ 雪 ja] [ 雪 ko]

Sasaki – Markupforum 2011

8

NEUE THEMEN I: KULTURSPEZIFISCHES LAYOUT AM BEISPIEL „JAPANISCH“ Sasaki – Markupforum 2011

9

Japanisch • Geschrieben in vier Schreibsystemen – Kanji (漢字) • Basiert auf chinesischen ideographischen Zeichen

– Hiragana (ひらがな) • Lautschrift für japanische Wörter

– Katakana (カタカナ) • Lautschrift für ausländische Wörter

– Romaji (romaji) • Lateinisches Alphabet Sasaki – Markupforum 2011

10

Neue Layout-Konzepte: Beispiel KIHONHANMEN

Sasaki – Markupforum 2011

11

„Westliches“ Seitenlayout • Zunächst Festlegung der Seitenränder • Dann Festlegung des Druckbereichs

Sasaki – Markupforum 2011

12

Japanisches Seitenlayout • Zunächst Festlegung des KIHONHANMEN anhand von Zeichengröße, Zeichenzahl, Spaltenzahl, Spaltenabstand • Dann Festlegung der Seitenränder Sasaki – Markupforum 2011

13

Hintergrund: reguläre Ausmaße japanischer Zeichen • Vgl. Dokument „Requirements for Japanese Text Layout“ http://www.w3.org/TR/jlreq/

Sasaki – Markupforum 2011

14

Neue Layout-Bestandteile: Ruby • Annotationen zum Basistext – Aussprache, Erklärung, ...

• Darstellung via sprachspezifischer Layoutregeln

Sasaki – Markupforum 2011

15

Herausforderung für „Single-source Publishing“ • Andere Inhalte in Abhängigkeit von der Layoutrichtung 400cm 4 0 0 セ ン チ Sasaki – Markupforum 2011

16

Zusammenfassung zu kulturspezifischem Layout • Neue – Konzepte (vgl. KIHONHANMEN) – Bestandteile (vgl. Ruby) – Sichten auf Verfahren (z.B. „Single-source Publishing“)

= neue Terminologie! • Wo kommt XML?

Sasaki – Markupforum 2011

17

Input und Output: „W3C Japanese Layout Task force“ • Teilnehmer: Experten der japanischen Druckindustrie + aus allen Layout-relevanten Arbeitsgruppen – CSS – XSL – SVG

• Ähnliche Gruppen im W3C für Layout im Chinesischen und Koreanischen • Einfluss auch auf die Entwicklung von ePub 3.0 Sasaki – Markupforum 2011

18

NEUE THEMEN II: MEHRSPRACHIGKEIT Sasaki – Markupforum 2011

19

Internationalisierung: • Basis (Zeichenkodierung, Sprachenidentifikation) • Erweiterungen hinsichtlich Darstellung (internationales Layout) • Erweiterungen hinsichtlich Informationsverarbeitung: Mehrsprachigkeit (mit automatischen Mitteln) – Automatische Übersetzung, Zusammenfassung, Qualitätskontrolle, ... Sasaki – Markupforum 2011

20

Was man für Mehrsprachigkeit im Web braucht • Input von www.postbank.de „Ob Postbank direkt, Online-Banking, Online-Brokerage oder myBHW. Die häufigsten Fragen zu unseren Transaktionssystemen finden Sie an dieser Stelle.“

• Ausgabe via Google translate “Whether Postbank direct, online banking, online brokerage or myBHW. Frequently asked questions about our transaction systems can be found at this location.”

Sasaki – Markupforum 2011

21

Lücke 1: Maschinen nutzen keine Metadaten in der Eingabe • Input von www.postbank.de

Feste Terminology Sollte nicht „Ob Postbank direkt, Online-Banking, Online-Brokerage oder myBHW. Die übersetzt werden. häufigsten Fragen zu unseren Wenn ein Autor Transaktionssystemen finden Sie an diese Information dieser Stelle.“ markiert hätte, • Ausgabe via Google translate wäre das “Whether Postbank direct, online banking, online brokerage or myBHW. automatische Tool Frequently asked questions about our transaction systems can be found at besser this location.”

Sasaki – Markupforum 2011

22

Lücke 2: Maschinen kennen keine Prozesse zur Datenerzeugung • Input aus einer Datenbank – dem „hidden web“: „Ob Postbank direkt, Online-Banking, Online-Brokerage …“

Feste Terminologie (= Metadaten) … Publikationsprozess

• Ausgabe im Web: „Ob Postbank direkt, Online-Banking, Online-Brokerage …“ Sasaki – Markupforum 2011

… wird verloren im Web  23

Lücke 3: keine eindeutige Identifikation • Von Metadaten und Verarbeitungsprozessen (vorherige Folien) • Von Ressourcen – was ist z.B. ein Lexikon – In maschineller Übersetzung? – In Lokalisierung? – Für den menschlichen Leser? – ...

• Wiederverwendung und Kombination von Ressourcen wird behindert Sasaki – Markupforum 2011

24

Wer kann diese Lücken füllen? • Autoren(systeme) – Nutzung von Terminologie / Markierung von Übersetzbarkeit z.B. in CMS

• Lokalisierer – Lokalisierungsworkflows sensibel für Metadaten (Quelltext- und Prozess-bezogen) machen

• „Sprachtechnologie” Experten – Tools sensibel machen für Metadaten im Quelltext und im Prozess – Ressourcen und Workflows klar beschreiben Sasaki – Markupforum 2011

25

Wie können die Lücken gefüllt werden? • Metadaten standardisieren • Metadatennutzung propagieren bei – Erzeugern von Inhalten – Verschiedenen Gliedern der Verarbeitungskette

• Anwendungsszenarien Communityübergreifend definieren

Sasaki – Markupforum 2011

26

ZUM SCHLUSS: PROJEKTHINTERGRUND Sasaki – Markupforum 2011

27

EU-Projekt „Multilingual Web“

Vgl. http://www.multilingualweb.eu/ Sasaki – Markupforum 2011

28

Hintergrund • Teilnehmer aus Industrie und Akademia (z.B. Computerlinguistik) • Ziel: Lücken zwischen Industrien, Nutzern und Forschern schließen • Outreach zu neuen Entwicklungen (z.B. hinsichtlich internationalisiertem Layout) – wie in dieser Präsentation  • Mehr gegenwärtiges Verständnis für Bedürfnisse von Nutzern und Möglichkeiten (automatischer) Verarbeitung) • Toolentwicklung – Beispiel “I18n checker” http://rishida.net/tools/i18nchecker/

Sasaki – Markupforum 2011

29

Teilnehmer • • • • • • • • • •

ERCIM/W3C: coordination CNR-ILC Facebook Ireland The University of Applied Sciences (UAS) Potsdam Institut Josef Stefan (JSI) Institutul de Cercetari Pentru Intelegentia Articificiala (RACAI) The Language Technology Centre Lionbridge Belgium Microsoft Ireland Opera Software

Sasaki – Markupforum 2011

• SAP • The Translation Automation User Society (TAUS) • Teknillinen Korkeakoulu • University of Oviedo (ILTO) • Universidad Politécnica de Madrid (UPM) • The Language Resource Centre • University of Economics, Prague • Transware Ltd (WeLocalize) • XML-INTL

30

Workshops zum Community-Bildung • Erster Workshop 26.-27. Oktober 2010, Madrid: „The Multilingual Web – Where Are We?“ • Zweiter Workshop 4.-5. April 2011, Pisa: „Content On The Multilingual Web“

Sasaki – Markupforum 2011

31

EU-Projekt „META-NET“ • Enge Verbindung zu „Multilingual Web“ • Hauptziel: Langfristige Allianz für Sprachtechnologie in Europa bauen • Umfasst mehr als 40 teilnehmende Organisationen aus 30+ Ländern • Wichtig: Nutzer von Sprachtechnologie involvieren

Sasaki – Markupforum 2011

32

META-NET • Nutzer und Sprachtechnologiefirmen = in Europa oft KMUs • Ziel von META-NET sind schnelle und flexible Einheiten – wie Sie  • Die EU hat entsprechende Förderprogramme veröffentlicht - vgl. http://tinyurl.com/eu-ltsme („objective 4.1“)

Sasaki – Markupforum 2011

33

META-NET • Event: META-FORUM 2011 • Budapest, 27.-29. Juni 2011 • Ziel: Nutzer / Sprachtechnologieentwickler / „Entscheider“ zusammenbringen • Ziele für die Sprachtechnologie in den nächsten 10 Jahren diskutieren • Details und bald Registrierung unter http://www.meta-net.eu/events Sasaki – Markupforum 2011

34

Thank you for your attention! Vielen Dank für Ihre Aufmerksamkeit ありがとうございました!

Sasaki – Markupforum 2011

35

Internationalisierung bei XML.pdf

There was a problem previewing this document. Retrying... Download. Connect more apps... Try one of the apps below to open or edit this item.

755KB Sizes 2 Downloads 165 Views

Recommend Documents

Ausschreibung_WerkstudentIn Softwareentwicklung bei ORY.pdf ...
Retrying... Whoops! There was a problem previewing this document. Retrying... Download. Connect more apps... Try one of the apps below to open or edit this item. Ausschreibung_WerkstudentIn Softwareentwicklung bei ORY.pdf. Ausschreibung_WerkstudentIn

Ausschreibung_Softwareentwicklung bei ORY.pdf
Try one of the apps below to open or edit this item. Ausschreibung_Softwareentwicklung bei ORY.pdf. Ausschreibung_Softwareentwicklung bei ORY.pdf. Open.

Verfügbarkeit MUR bei Rossmann.pdf
There was a problem previewing this document. Retrying... Download. Connect more apps... Try one of the apps below to open or edit this item. Verfügbarkeit ...

Programm bei Yoga Vidya Bad Meinberg
nen, mir einen Gutschein für eine Yoga-Fortbildung zu schen- ken, und den bekam ich auch, zusammen mit dem Katalog von. Yoga Vidya! Wie Yoga mein Leben verändert hat. Nachdem ich darin einige Male geblättert hatte war klar: ich mache keine Fortbil

Bei mpya za mafuta Tz.pdf
Loading… Page 1. Whoops! There was a problem loading more pages. Retrying... Main menu. Displaying Bei mpya za mafuta Tz.pdf.

Bei mpya za mafuta Tz.pdf
Retrying... Download. Connect more apps... Try one of the apps below to open or edit this item. Bei mpya za mafuta Tz.pdf. Bei mpya za mafuta Tz.pdf. Open.

Bei mpya za mafuta Tz.pdf
Page 1. Whoops! There was a problem loading more pages. Retrying... Bei mpya za mafuta Tz.pdf. Bei mpya za mafuta Tz.pdf. Open. Extract. Open with. Sign In.

Programm bei Yoga Vidya Bad Meinberg
cher sein, dass man das Mantra täglich mindestens 20 Minuten wiederholen und täglich 20 Minuten lang mit dem Mantra meditieren will. Dann muss man jemanden finden, der die Mantraweihe geben kann und dazu bereit ist. In allen Yoga Vidya Ashrams gibt

Watch Hou Bei Kong Jie (2014) Full Movie Online Free ...
Watch Hou Bei Kong Jie (2014) Full Movie Online Free .Mp4_____________.pdf. Watch Hou Bei Kong Jie (2014) Full Movie Online Free .Mp4_____________.

Yo Bei Er 0321652 (Creative Brief).pdf
Page 3 of 14. Whoops! There was a problem loading this page. Retrying... Yo Bei Er 0321652 (Creative Brief).pdf. Yo Bei Er 0321652 (Creative Brief).pdf. Open.

Vorfälle von Gewaltausübung an Schutzbefohlenen bei den ...
Jul 18, 2017 - Für viele von ihnen war dieser Schritt alles andere als einfach. Ohne ...... einer 50 Meter Laufbahn, einem Hartplatz, einer schönen Wiese und dem Sandkasten der ...... bei Harry Potter mit dem Slughorn-Club.“1514.

Watch Bei Jiu Gao Ge (1974) Full Movie Online Free ...
Watch Bei Jiu Gao Ge (1974) Full Movie Online Free .Mp4_______________.pdf. Watch Bei Jiu Gao Ge (1974) Full Movie Online Free .Mp4_______________.

Watch Lao hu bu dui bao bei bing (1981) Full Movie Online Free ...
Watch Lao hu bu dui bao bei bing (1981) Full Movie Online Free .MP4___.pdf. Watch Lao hu bu dui bao bei bing (1981) Full Movie Online Free .MP4___.pdf.

Watch Lao hu bu dui bao bei bing (1981) Full Movie Online Free ...
Watch Lao hu bu dui bao bei bing (1981) Full Movie Online Free (HD 1080P Streaming) DVDrip.MP4.pdf. Watch Lao hu bu dui bao bei bing (1981) Full Movie Online Free (HD 1080P Streaming) DVDrip.MP4.pdf. Open. Extract. Open with. Sign In. Main menu. Disp