Geiriau am eiriau: Blog Uned Technolegau Iaith Canolfan Bedwyr, Prifysgol Bangor

Murmur

Geiriau am eiriau: blog Uned Technolegau Iaith Canolfan Bedwyr, Prifysgol Bangor

Article on the future of Welsh language technologies

Tachwedd 30, 2006 gan Dewi
Adran: Language: English, Newyddion - News

The following article was on PingWales about our work - The future of Welsh language technology

Erthygl dyfodol technolegau iaith Cymraeg

Tachwedd 30, 2006 gan Dewi
Adran: Iaith: Cymraeg, Newyddion - News

Dyma erthygl ar wefan newyddion PingWales am ein gwaith yma - The future of Welsh Language Technology

“Helo, Fyd!” mewn unrhyw iaith / “Hello, World!” in any language

(bilingual blog entry - English below)

Yn dilyn rhai ymholiadau, dyma’r casgliad o sleidiau (PDF, 269k) o’r cyflwyniad rhoddais i gyd-aelodau ITWales nôl ym mis Awst ar dechnolegau iaith a’r Gymraeg.

Roedd y cyflwyniad yn gyfle i ddisgrifio’r datblygiadau technolegau iaith yng Nghymru ac i’r Gymraeg. Roedd hefyd yn gyfle i fwrw golwg ar y cyfleoedd a ddaw i ryngwladoli meddalwedd ar gyfer y farchnad fyd-eang.


Hello World in any language

Following some enquiries, here are the slides (PDF, 269k) from the ITWales presentation I gave back in August on Language Technologies and the Welsh language.

The presentation was an opportunity to provide an overview of what language technologies are, and what language technology is available for the Welsh language. It also gave a chance to highlight the internationalisation and localisation of software needed in order to operate in the global multilingual market.

Ymweliad â Dulyn

Dyma fi wedi bod yn galifantio eto. Dulyn oedd y cyrchfan y tro hwn, i gynhadledd cau’r Biwro Ieithoedd Llai eu Defnydd yno. Wn i ddim ydi hynny’n rhywbeth i’w ‘ddathlu’, achos y gobaith yw fod rhywbeth gwell yn dod yn ei le. Mae Comisiynydd Iaith wedi’i benodi i’r Undeb Ewropeaidd am y tro cyntaf, a threfn newydd ar y ffordd - cawn weld a fydd hyn yn gwella pethau!

Ta waeth, mynd yno ar gais Ailbhe Ni Chasaide wnes i. Roedd hi’n un o’r prif siaradwyr, yn annerch ar WISPR, ein project technoleg lleferydd ar y cyd. Fe siaradodd hi’n dda iawn hefyd, gan bwysleisio pwysigrwydd technolegau iaith, a thechnoleg lleferydd yn benodol, i’r ieithoedd llai. Roeddwn i’n teimlo’n reit prowd o’n project pan soniodd hi am y ffordd roedd un ferch fach ddall yn awr yn gallu cael addysg cyfrwng Gwyddeleg am y tro cyntaf am fod y dechnoleg yma yn awr ar gael i’w helpu - fel arall byddai wedi gorfod mynd i ysgol cyfrwng Saesneg.

Roedd y gynhadledd hefyd yn gyfle i gyfarfod pobl eraill sy’n weithgar yn y maes. Dwy sgwrs sy’n sefyll allan yn arbennig: y naill gyda rhywun oedd yn ceisio datblygu synthesis lleferydd ar gyfer Gaeleg yr Alban, a’r llall a oedd yn gweithio ar safoni orgraff y Gernyweg am fod yr iaith bellach yn cael ei dysgu yn yr ysgolion cynradd yno. Posibiliadau cydweithio pellach gyda’r ddau, mae’n werth mynd i Ddulyn ambell dro!

Cynhadledd Termau Brwsel

Tachwedd 23, 2006 gan Delyth
Adran: Iaith: Cymraeg, Terminoleg - Terminology

Mae’n hen bryd i mi ysgrifennu cofnod o’r ymweliad â Brwsel. Mynd yno wnes i ar gyfer cynhadledd EAFT (Cymdeithas Termau Ewrop). Roeddwn i wedi cael fy ngwadd i siarad am yr her sy’n wynebu ieithoedd bach wrth greu terminoleg safonol, ac roedd yr ymateb yn gadarnhaol iawn.

Dyna newid sydd yn y byd termau yn Ewrop ers i mi fynd i’r gynhadledd gyntaf yn y maes ym Mharis yn 1999. Bryd hynny roeddwn i’n teimlo fod yr ieithoedd bach fel y Gymraeg wedi’u hymyleiddio’n llwyr. Roedd yr holl ffocws ar ieithoedd swyddogol Ewrop, ac roedd hi’n gamp perswadio rhai o’r cynadleddwyr fod y Gymraeg yn iaith go iawn, ac nid yn dafodiaith o’r Saesneg. Dyna’r lle dysgais i gyntaf i ddefnyddio’r label ‘Celtaidd’ yn Ewrop - roedd mwy o ddealltwriaeth a mwy o barch at y cysyniad hwnnw.

Hyn arweiniodd ni i sefydlu’r rhwydwaith Termcelt yn 2001, a siarad ar ran yr ieithoedd Celtaidd i gyd oeddwn i y tro hwn. Bellach mae’r hen wahanfur rhwng yr ieithoedd ’swyddogol’ a’r rhai ‘lleiafrifol’ yn Ewrop yn mynd. Cefais fy nghywiro gan y Basgiaid wrth sôn am ‘langues minoritaires’. Does dim y fath beth yn bod medden nhw, dim ond ieithoedd ‘minorisés’. Wel, dyna fy rhoi i yn fy lle yn dwt.

Mae ieithoedd fel y Gatalaneg yn pwysleisio fod mwy o siaradwyr gan eu hiaith (answyddogol) nhw nag sydd gan ieithoedd swyddogol yr UE fel Daeneg. Mae’r hollt felly i’w weld mwyfwy rhwng yr ieithoedd ‘mawr’ sydd â digon o adnoddau a grym economaidd a’r rhai ‘bach’ - swyddogol ai peidio. Mae ieithoedd aelodau newydd yr UE o ddwyrain Ewrop yn gweld eu hunain yn yr un cwch a’r Gymraeg hefyd, ac roedd hi’n braf iawn teimlo yn y gynhadledd hon fod yno ewyllys i fod yn gynhwysol a thynnu pob iaith i mewn i’r cylch.

Roedd y Gwyddelod yno yn gryf - 6 ohonyn nhw ym maes terminoleg yn siarad Gwyddeleg yn braf â’i gilydd. Wrth gwrs, bydd y Wyddeleg yn iaith swyddogol lawn yn yr Undeb Ewropeiadd o fis Ionawr nesaf ymlaen, ac mae’n amlwg fod statws swyddogol yn dal yn bwysig yn y maes yma. Roedd TermBret yno hefyd, ac un o uchafbwyntiau’r gynhadledd oedd mynd allan am bryd o fwyd a chlywed cymysgedd o Wyddeleg, Llydaweg a Chymraeg o gwmpas y bwrdd. Hynny, cofiwch chi, nid mewn cynhadledd ieithoedd lleiafrifol, ond yn un o brif gynadleddau termau Ewrop.

Cafodd Gruffudd gyfle i roi cyflwyniad byr ar Maes-T, ein rhaglen trin termau newydd, ac roedd diddordeb mawr yn hon. Holodd y Ffiniaid, yr Estoniaid, y Maltiaid a’r Basgiaid am ragor o wybodaeth. Peth da ein bod ni wedi mynd â digon o’n taflenni crand newydd gyda ni yno.

Yr unig siom i mi oedd mod i wedi methu ag ateb yn gadarnhaol i’r gwahoddiad i fod yn aelod o Fwrdd EAFT. Byddwn i wedi bod wrth fy modd yn derbyn, ond byddai wedi golygu teithio i Frwsel 5 neu 6 gwaith y flwyddyn, a hynny ar fy nghost fy hun neu gost y brifysgol ym Mangor. Ar hyn o bryd byddai hynny’n dipyn o ymrwymiad, ond mi wnes addo ailystyried ymhen dwy flynedd.

Yn y cyfamser, rwy’n teimlo fod cryfhau Termcelt a’n rhwydweithiau ni er mwyn gwneud y gorau o arian Ewrop dan Fframwaith 7 yn fwy o flaenoriaeth. Mae’n debyg fod paratoadau ar y gweill ar gyfer Interreg IV, ac efallai y bydd hynny’n fodd i ni gydweithio gyda’r Gwyddelod a’n cyfeillion Celtaidd eraill eto. Gobeithio hynny beth bynnag.

Cyfrol Cynhadledd LULCL - Lesser Used Languages & Computer Linguistics

Tachwedd 22, 2006 gan Dewi
Adran: Iaith: Cymraeg, Cyffredinol - General

Heddiw cyhoeddwyd cyfrol cynhadledd ‘LULCL - Lesser Used Languages & Computer Linguistics’ a ddigwyddodd nôl ym mis Hydref 2005.

Nod y gynhadledd oedd “…give lesser used languages an opportunity for visibility without taking into consideration the official number of speakers, but rather the range of technological resources available for each language”.

Roedd cyflwyniadau o brojectau ac ymchwil yn ymwneud a ieithoedd eraill megis Catalaneg, Sámi, Ladin, Zimbar, Judeo-Spanish, Bantu, Cimbrian ayb. Cyflwynodd aelodau o Uned Technolegau Iaith Canolfan Bedwyr bedwar papur yn ymwneud â’r Gymraeg :

  • Lexicelt - ein geiriadur Cymraeg Gwyddeleg ar-lein (gyda llyfr ymadroddion yn ogystal)
  • SpeechCluster (cyswllt at y papur, .tar.gz) - offer meddalwedd er mwyn hwyluso adeiladu corpws technolegau lleferydd.
  • Ieithgi - gemau Iaith BBC a ddatblygwyd yma yng Nghanolfan Bedwyr
  • Cronfa Genedlaethol o Dermau (cyswllt at y papur, .tar.gz) - wefan termau Bwrdd yr Iaith a ddatblygwyd gan ddefnyddio safonau rhyngwladol ISO ar derminoleg.

Mae’r gyfrol ar gael o’r Europäische Akademie Bozen, press@eurac.edu (ISBN 88-88906-24-X). Y golygydd yw Isabella Ties.

‘Culture name cy-gb is not supported’ yn ASP.NET ar Windows 2003

(-> English)

Dyma’r neges a ymddangosodd yn y porwr ar ôl gosod ein system safoni termau ar-lein newydd Maes-T ar ein gweinydd ASP.NET a Windows 2003 am y tro cyntaf. Rydym yn defnyddio nodweddion rhyngwladoli a lleoleiddio .NET i ddarparu Maes-T mewn unrhyw iaith, gan gynnwys y Gymraeg.

Os chwiliwch yn Google am ‘ASP.NET’ a ‘cy-gb’ fe welwch chi fod nifer o ddatblygwyr eraill wedi dod ar draws y neges wall hon. Yn anffodus does ddim datrysiad amlwg na chyfarwyddiadau syml i helpu. Felly dyma gofnod yn ein blog newydd i rannu sut ddatrysom ni’r broblem.

Mae’r broblem yn digwydd am fod ‘locale’ Cymraeg yn bodoli yn Windows XP SP2 ond nid ar Windows 2003 na fframwaith .NET Microsoft. Mae’r erthyglau canlynol yn esbonio rhagor :

Sample code for getting ELK cultures on other platforms gan Michael Kaplan.

.NET Internationalization: The Developer’s Guide to Building Global Windows and Web Applications: Chapter 11 - Custom Cultures - The Code Project - Book Chapters

Y camau oedd :

  • creu ffeil cy-gb.ldml gyda’r cod C# o erthygl Michael Kaplan ar beiriant Windows XP SP2.
  • copïo’r ffeil cy-gb.ldml i’ch peiriant Windows 2003 (neu Windows 2000).
  • fel y disgrifir yn yr erthygl CodeProject, agor y ffeil ldml yn Notepad neu unrhyw olygydd testun a chwilio am y llinellau sy’n cynnwys :
msLocale:textInfoName type="cy-GB"
msLocale:sortName type="cy-GB"
  • er mwyn eu newid i
msLocale:textInfoName type="en-GB"
msLocale:sortName type="en-GB"
  • Yna cofrestrwch eich ‘custom locale’ newydd drwy redeg yr ail ddarn o god erthygl Michael Kaplan.

A dyna fo. Fe ddylai ffeil cy-GB.nlp fodoli yn eich cyfeiriadur C:\Windows\Globalization.

‘Culture name cy-gb is not supported’ from ASP.NET on Windows 2003

This was the error message that appeared in our browsers after we installed our new on-line terminology tool Maes-T for the first time on our ASP.NET and Windows 2003 server. We are using the .NET frameworks support for internationalization in order to develop Maes-T for any language including Welsh.

If you search Google for ‘ASP.NET’ and ‘cy-gb’, it appears that this is an error message a number of other developers have come across. After reading through all the forums and blogs and articles related to this problem, here’s another one that describes simply how we solved the problem.

The problem occurs because the Welsh locale exists within Windows XP SP2 only and not in Windows 2003 nor the Microsoft .NET framework. The following articles explain more :

Sample code for getting ELK cultures on other platforms by Michael Kaplan.

.NET Internationalization: The Developer’s Guide to Building Global Windows and Web Applications: Chapter 11 - Custom Cultures - The Code Project - Book Chapters

The step we followed were :

  • create a cy-gb.ldml with the C# code in Michael Kaplan’s article on a Windows XP SP2 machine.
  • copy the cy-gb.ldml file to your Windows 2003 (or Windows 2000) machine
  • as described in the CodeProject article, open the cy-gb.ldml file in Notepad or any text editor and search for the lines containing :
msLocale:textInfoName type="cy-GB"
msLocale:sortName type="cy-GB"
  • and change them to
msLocale:textInfoName type="en-GB"
msLocale:sortName type="en-GB"
  • Then register your new ‘custom locale’ by executing the second code sample in Michael Kaplan’s article.

And that’s it. You should have a cy-GB.nlp under your C:\Windows\Globalization and all ASP.NET websites that use the cy-gb locale working.

…yn yr awel

Tachwedd 8, 2006 gan Rhys
Adran: Iaith: Cymraeg, Cyffredinol - General

Mae gan bawb eu cyfrinachau. Neu’n hytrach, mae gan bawb ddau fath o gyfrinach. Y math cyntaf yw’r rhai na fedrir son amdanynt i neb, y pethau hynny y byddai erchyllterau lu yn digwydd o’u datgelu. Chewch chi ddim o’r rheina ar y blog hwn.

Mae’r ail fath o gyfrinach - y cyfrinachau agored - yn llawer mwy diddorol. Y rhain yw’r math o gyfrinachau medrwch chi eu rhannu. Y rhai sy’n sôn am y pethau sydd ddim yn gyfan gwbl gyhoeddus, ond eto na fyddai na ffrind na chytundeb yn cael eu colli o’u datgelu. Pethau fel yna y byddwn ni yn murmur amdanyn nhw fan hyn.

Y ni, gyda llaw, yw Uned Technolegau Iaith Canolfan Bedwyr, Prifysgol Cymru Bangor. Ni yw’r rhai sy’n datrys enwau lleoedd, sy’n safoni termau newydd, sy’n rhoi sialens i’r byd, sy’n cael cyfrifiaduron i siarad Cymraeg, ac sy’n creu campwaith a hanner (yn ôl eraill).

Mae gwthio’r Gymraeg i fannau lle na fu hi erioed o’r blaen yn hynod gyffrous (wel, rydyn ni o’r farn ei bod hi’n gyffrous ‘ta beth). Felly, gobeithio, bydd digon o furmur fan hyn. Yn y ffordd orau bosib, wrth gwrs.

Workshop proposal: Free Software for speech and language technology for less-resourced languages

I’ve submitted a proposal for a ‘Special Session’ on speech and language technology for minority languages, to be held as part of a major international conference on speech technology, Interspeech 2007. The proposal is in the name of the SALTMIL Special Interest Group (’Speech and Language Technology for Minority Languages’, founded in 1999).

The title of the Special Session (if approved) would be ‘Free software for speech and language technology for less-resourced languages: sharing experiences and best practice’.

Here’s the relevant part of the proposal:

Free software for speech and language technology for less-resourced languages: sharing experiences and best practice

Speech and language technology researchers who work on less-resourced languages are often constrained to use free software, simply because of the severe lack of funding and software available. This software may be either open-source or closed-source, and in the latter case it may be a version of proprietary software that is made available for non-commercial use only. However, free software can be lacking in documentation and training, and can contain many undocumented features that impede progress. There is a need for researchers to come together and share experiences of using such software, including recommendations for getting the most out of it. This would include the following:

  • Examples of systems built using free software (possibly with demonstrations).
  • Presentations of bugs encountered, and strategies for dealing with them.
  • Presentations of additions and enhancements made to the software by a research group.
  • Descriptions of desired features for possible future implementation.

This kind of presentation is better done in a Special Session rather then scattered across several sessions (which is what one tends to find with papers on less-resourced languages). This is because it can be difficult to attend all papers that concern less-resourced languages when these are in several (often conflicting) sessions. Also, it can be difficult to ascertain from the abstracts alone whether a particular paper involves using or adapting free software. A Special Session dedicated to this specific topic would make it much easier for (often very isolated) researchers to learn of what has been done already with free software, thus avoiding the duplication of effort. It would also make it much easier for researchers to make contact with others who are already using the software that they plan to use.

There is no guarantee that a proposed Special Session will be approved by the Interspeech organisers, but this kind of workshop is surely needed, in some form or other. Those of us working closely with open-source software have come to realise it can have drawbacks. The financial cost may be zero, but there are other costs involved, which require time, effort, and significant expertise to overcome. We are committed to the use of open-source software, but this also means we need to find ways of sharing all the undocumented ‘folklore’ that is essential to actually using the software successfully. The hope is that this proposed ’special session’ will be one of those ways.