Compound words and spell checking.

A spell checker checks a text, if it is correctly spelled. A text is correctly spelled, if it follows the grammatical rules of the language it is written in, and if it uses the word set that belongs to that language. These two things are checked by the spell checker. It usually works by comparing the words of the text with a predefined set of words. Since words can have prefixes and suffixes in any language, the spell checker must consider all possible prefixes and suffixes for the checked word. If neither the word matches nor the modifications with prefixes and suffixes result in a known word, the word will be flagged as wrong. If a word is flagged as wrong, it either is not contained in the word and prefix and/or suffix list of the checkers list or it is really an erroneous, either erroneously spelled or not existing word.

All languages support more or less the concept of compound words. Compound words are words combined from two or more root words. In English, for instance rain+drop = raindrop, rain+coat= raincoat, straw+berry = strawberry, and so on. Some languages are friendly against compound words, that is, they support lots of compound words, others, like English are reserved against compound words, and use only few compound words.

When words are collected for a given language, and the language has hundreds of thousands of compound words, the collecting people ask themselves (and others), if it is possible to let the computer collect the compound words, even at run time, since collecting all those words can be a tedious and long task.

The way to verify that is to collect words of a given language for example from the web, pre-select the collected words by a rough pre-collecting program and then evaluate the quality of the collection.

First the theory: Let assume, a language contains 25 thousand root words, that can be combined to compound words. If we allow only two root words to be combined into a compound word, in the above case we have about 625 millions of compound words. Out of those 625 millions of words clearly 624 millions of words are nonsense, that are not part of the given language. Some of the achieved words will be grammatically erroneous, since they do not contain the glue that is needed to achieve a valid word. For example in German Motor+Schraube=Motorenschraube,(+en) Arbeit+Amt=Arbeitsamt (+s), Maschine+Bau=Maschinenbau (+n), Hund+Kot=Hundekot (+e), Arbeit+Nehmer=Arbeitnehmer, halten+Linie=Haltelinie (-n), Adresse+Register=Adressregister (-e), laufen+Feuer=Lauffeuer(-en). A glue is applied to the first word, either s, e,n or en,-e, -n or-en, or something similar. In Hungarian the same thing is true: hajó+kapitány= hajóskapitány,(+s) had+hajó=hadihajó, (+i) gyümölcs+tál=gyümölcsöstál, (+ös) köt+tű=kötőtű (+ő) etc...

Assuming, we collected all the words manually that need glue and we exclude those words, that need glue from the collection of the collecting program, we still have a lot of problematic words, that are not part of the used language and that are even erroneous words, that get "good" due to the collection by the program. Some examples in Hungarian for such wrong words:
agár+olló= agárolló nonsense word, correctly agrárolló.
fing+ugor= fingugor nonsense word, probably finnugor.
fog+dalom (fogd+alom) = fogdalom nonsense word, probably fogadalom.
fogó+szél= fogószél nonsense word, probably forgószél.
hajó+ér = hajóér nonsense and also wrongly spelled word, correctly hajóért.
hír+ondó= hírondó nonsense word, probably hírmondó.
láp+ón= lápón nonsense and also wrongly spelled word, correctly lápon.
motor+öl= motoröl nonsense word, presumably a German one: Motoröl
szív+érc= szívérc nonsense word, correctly szívért.
szűr+nyű= szűrnyű nonsense word, correctly szörnyű.
tó+váz=tóváz nonsense word, probably tovább was meant originally.
örvényhozás=törvényhozás. Missing first character. There are lots of errors of this type like:
ízparancsolat = tízparancsolat.
agyarország = Magyarország
összegfog = összefog. Wrong character in word, other examples below:
összegtett = összetett
ívóvíz = ivóvíz
ínfiltrál = infiltrál
ínkontinens = inkontinens
úrállomás = űrállomás. Wrong character in word, other examples:
úrhajó = űrhajó
borruha = bőrruha
övintézkedés = óvintézkedés
üzenttett = üzentet. üzent+ tett creates a completely senseless, erroneous word
örömboldogság = öröm boldogság. Words that mean the same, therefore they form no compound word

Nonsense or erroneous words found in the German word list:
AA+Achtung=AAAchtung misspelled form of the word Achtung
Ab+Gebot=Abgebot Non existing word, probably Aufgebot
Damen+Ober=Damenober first part of of the word Damenoberkleidung, standalone senseless
Haus+anstellten=Hausanstellten misspelled form of the word Hausangestellten
Haus+Art=Hausart misspelled form of the word Hausarzt
Haus+Leib=Hausleib misspelled form of the word Häuslein
he+heben=heheben misspelled form of the word beheben
per+rücken=perrücken misspelled form of the word Perücken
suche+nach=suchenach misspelled form of the words suche nach
Sud+Amerika=Sudamerika misspelled form of the word Südamerika
Tag+Buch=Tagbuch misspelled form of the word Tagebuch
Tisch+Tau=Tischtau non existing word, probably Tischtuch was meant.
Tran+Port=Tranport misspelled form of the word Transport
Über+Nacht=Übernacht misspelled form of the word Übernachtung or über Nacht
Uns+Leber=Unsleber non existing word
Ver+Brau=Verbrau non existing word, presumably the first part of Verbraucher
Zug+Griff=Zuggriff misspelled form of the word Zugriff

The here listed erroneous words by no means cover the full scale of possible errors, they are just a very small selection of them.

The examples show us, that programmatic compound word generation unavoidably causes lots of non existing, even grammatically erroneous words, that are clearly not part of the checked language to be acknowledged as correct. Programmatic generation of compound words can be a great help when we collect words from different sources, but is the wrong choice as a tool for for spell checkers. The right way is to collect the available words of the given language. Practically the real word set in any language is not above 1 million words, and the used word set is not above 700 thousand words, that can be collected. I assume this size, because the very well documented German language has 3 leading dictionaries: Wahrig, Mackensen and Duden, each of which has its own strength. The sum of the words, that these dictionaries contain, does not exceed 800 thousand words. Let's add the special words for physics, chemistry, mining, mathematics, medicine, music, etc, each maximal 20 thousand words, we still remain below the limit of 1 million words. Even by using a collection of 300 thousand word one can work quite productively using a spell checker.

By program generated combined words are useful at the starting phase of the word collection, but are quality killer in the later period of the spell checker usage.

In the Hungarian affix generator some additional flags were added to indicate, that a word is already compound or that a word cannot stand as s compound word. These flags complicated the Hungarian affix generation quite a bit. The internal logic forbade some combinations, that sometimes lead to non accepting of valid combinations. This internal logic was continuously "improved", but the final result is discouraging. The flags and programmatic measures helped to hide the quality decrease used by the compound word generator, but could not really improve its quality. It still generates innumerable bad words. Its most useful feature is, that it can be switched off by some switches in the .aff file.

The flag, if a word is already compound is necessary, to avoid, that the spell checker considers whole lines of written together words to be good. This is the case for example when using the MS-Word spell checker for Hungarian - it does not see erroneously written together words, and for humans completely unreadable texts are therefore considered as correct texts. An example for such unreadable text: Thesewordsareswrittentogetherandsomespellcheckersconsiderthemascorrect. To define such a flag "correctly" is almost impossible, since languages, that use compound words, do not limit themselves to two words as compound word, but there are practical limitations, individual for each compound word. Examples for multiple compound words are Arbeitsamtsgebäude or kötőtűhegy.

An important difference between Hungarian and German is in compounding the usage of plural in other than the last compounded word. This is in Hungarian in no word the case, and plural in not the last word is generally an error in Hungarian. This, because Hungarian uses plural much more sparsely than Germanic languages. German and Dutch compound several words as not last element only in plural, for example Schraubenzieher, Katzendreck, Küchentisch and others. Several words are sometimes as plural in as not last element, sometimes singular, like Hauswand vs. Häuserreihe or Buchbinder vs. Büchersammlung.

For the German generator one could also define similar indicators, for example to indicate, if this word uses glue, and if yes, which kind. However, as we saw, there exist both Arbeitsamt and Arbeitnehmer, or Motorenbau and Motorflug, which are only correct in the given form. That means, that the kind of glue has to be given for each compound word, that also indicates, that it is much less work to add all compound words to the list, than such laborious but less effective and error-prone flags. There are also some compound words, whose ingredients are not available as single words. Such are in German Stiefeltern, Allzweckmittel, ... where the words Stief or Allzweck are not used and listed as single words, and therefore would not be generated even if a generator existed.


Systematically collected compound word error types in Hungarian (without the claim of completeness). The "corrected" field shows, what the writer presumeably intended to write down:
type example corrected
not compoundable words
put together
származóegyébszármazó egyéb
szentülésszentül és
.  city or location namepanamacsatornaPanama csatorna
kanáriszigetekKanári szigetek
parázsszögParázsszög
sziksóstóSziksóstó
ráckeresztútiRáckeresztúr
siócsatornaSió csatorna
szervitatériSzervita téri
zsázsaforrásZsázsaforrás
savóvölgySajóvölgy
somlóvolánSomlóvolán
köztársaságtériKöztársaság téri
.  company or personal
name
kelettervKeletterv
mariskovaMariskova
molnárprofesszorMolnár professzor
.  nation names added to
another nation's name
töröktatár török tatár
.  nation name and
another word
mongoldúlásmongol dúlás
perzsaépítészetperzsa építészet
portugálvetélkedésportugál vetélkedés
tatárveszedelemtatár veszedelem
tóthangsúlyozástót hangsúlyozás
.  similar or complementary
words combined
pedagógustanár pedagógus tanár
maximumcsúcsmaximum csúcs
napközióvodanapközi óvoda
rovarbogárrovar bogár
rétlegelőrét legelő
lófaszpicsalófasz picsa
macskakutyamacska kutya
totólottótotó-lottó
tényfaktumtény faktum
tölgybükktölgy bükk
sertésdisznósertés disznó
színházmoziszínház mozi
trombitahegedűtrombita hegedű
varjúdenevérvarjú denevér
helyzetszituációhelyzet szituáció
húsvétkarácsonyhúsvét karácsony
internetintranetinternet intranet
istenkirálycsászáristen király császár
szülésznőgyógyászszülész-nőgyógyász
tanítópedagógustanító pedagógus
testlélekszellemtest lélek szellem
patkánymadárhalpatkány madár hal
szarvasoroszlánszarvas oroszlán
szégyengyalázatszégyen-gyalázat
szégyennemszégyenszégyen, nem szégyen
.  attribute in wordkezdőnapkezdő nap
rémhosszúrém hosszú
lazítóhatáslazító hatás
lengőszerkezetlengő szerkezet
mindenkimenetminden kimenet
mindenkiállítóminden kiállító
rengőbölcsőrengő bölcső
valóigazvaló igaz
narancsgombnarancs gomb
sodrófolyósodró folyó
sugárzóadósugárzó adó
szarbandaszar banda
vadfolyamvad folyam
semmiproblémasemmi probléma
sikongatókurvasikongató kurva
tartalmazógáztartalmazó gáz
tavalynyáritavaly nyári
tegnapnyílttegnap nyílt
vastagbevonatvastag bevonat
városkülönbözőváros különböző
városversengőváros versengő
védelemanyagivédelem anyagi
városhódolóváros hódoló
állandópisilésállandó pisilés
állandókeverésállandó keverés
telelábastele lábas
rajongóhölgyrajongó hölgy
szomszédkapuszomszéd kapu
tartozóhátsótartozó hátsó
terhesasszonyterhes asszony
vakgyanakvásvak gyanakvás
vakgyűlöletvak gyűlölet
vaknémafilmvak néma film
vakszeszélyvak szeszély
átfogótudásátfogó tudás
klasszicistahatásklasszicista hatás
hollandállampolgárholland állampolgár
imádsághatalmasimádság hatalmas
indulóalkalmazásinduló alkalmazás
intrikushangütésintrikus hang ütés
mindegyikhelyezésmindegyik helyezés
mindenkihallatszásminden kihallatszás
mindenkiránézésmindenki ránézés
normáliseloszlásnormális eloszlás
osztályostanulóosztályos tanuló
pazarláscsaládipazarlás családi
piaristagimnáziumpiarista gimnázium
rendestársaskocsirendes társaskocsi
származóbecslésszármazó becslés
származóbevételszármazó bevétel
tartózkodókocsitartózkodó kocsi
történőfelvételtörténő felvétel
történőhegesztéstörténő hegesztés
történőszállítástörténő szállítás
történőátszervezéstörténő átszervezés
irányulóeljárásirányuló eljárás
irányulóengedélyirányuló engedély
keresztyéntanításkeresztyén tanítás
kereszténykurzuskeresztény kurzus
kommunistapartizánkommunista partizán
londonifelméréslondoni felmérés
nyújtófaborításnyújtó faborítás
nyújtóintézménynyújtó intézmény
oknyomozóriportoknyomozó riport
országkülönbözőország különböző
plüsskulcstartóplüss kulcstartó
reformátuspüspökreformátus püspök
rendkívülieseményrendkívüli esemény
rendkívülihavazásrendkívüli havazás
rendhagyójelképtárrendhagyó jelképtár
ropogóscseresznyeropogós cseresznye
röhögésfullasztóröhögés fullasztó
szolgálóberendezésszolgáló berendezés
szolgálóterületszolgáló terület
.  verb in wordvagyonbátorságvagyon bátorság
közvéleményvártaközvélemény várta
népszerűségretesznépszerűségre tesz
testvérvoltodtestvér voltod
törvénykönyvszólótörvénykönyv szóló
.  adverb in wordprofesszortavalyprofesszor tavaly
.  foreign words
combination
marketingkoffereladó táskája
profitdauerprofit dauer
modemanschlussmodem anschluss
internetanschlussinternet anschluss
motorölmotor öl
korrektorstiftkorrektor stift
kreditvolumenkredit volumen
luftfilterluft filter
poruszonypor uszony
projektigaprojekt iga
labdakoszlabda kosz
marketingchefmarketing chef
patentblattpatent blatt
patentformulapatent formula
traktatantrakta tan
intercitytrafikintercity trafik
projektstandardprojekt standard
restaurantdirektorrestaurant direktor
telefonanschlusstelefon anschluss
.  foreign word
building
patriarchalistapatriarcha lista
patriarchaliterpatriarcha liter
receptimarecept ima
sumergidasumer gida
provincialibusprovincia libus
souvenirslagsouvenir slag
temperamentatempera menta
abbreviation accepted
as word
szobamennyszobamennyezet
tananyagfejtananyagfejlesztés
képviselőtárképviselőtárs
képviselőtestképviselőtestület
sportcentsportcentrum
szakfolyószakfolyóirat
szakfőtanszakfőtanácsos
transznacitransznacionális
történelemtantörténelemtanár
villanyszámvillanyszámla
vállvezetésvállalatvezetés
vasaláskönnyvasaláskönnyítő
repeated the same word
or parts of it
munkajogjogmunkajog
lakóházházlakóház
lélekjeljelenlétlélekjelenlét
szerepepeszerepe
árárarányárarány
szamárkórókórószamárkóró
számszámlálószámláló
vadvadászatvadászat
vasvasárnapvasárnap
ásványvízvízásványvíz
ruhafogasfogasruhafogas
sárgarézrézsárgaréz
varázsitalitalvarázsital
jogjogbiztonságjogbiztonság
szemszemélyiségszemélyiség
szolszolgáltatásszolgáltatás
teremteremteremterem
továbbképzésképzéstovábbképzés
senseless wordmeggykolonc meggy kolonc,
könyvtárnyárikönyvtár nyári
könyvtárállamikönyvtár állami
központhátsóközpont hátsó
libavárakozóliba várakozó
menedékholdmenedék hold
nyelvbotolásnyelvbotlás
panelbíróságpanel bíróság
partinövényparti növény
városcsapatváros csapat
véleményvitavélemény vita
tanártojástanár tojás
prózavakondpróza vakond
vezetéknévnapvezetéknév nap
parkettördögölésparkett ördög ölés
patthelyzetvégülpatthelyzet végül
ritkaföldfémgránátritka föld fém gránát
tehéntermesztéstehéntenyésztés
kedvgyönyörködéskedv gyönyörködés
mámorszenvedélymámor szenvedély
méretreflexelemméretre flexelem
osztrigatermesztésosztrigatenyésztés
virágtenyésztésvirágtermesztés
pályaalkalmatosságpályaalkalmasság
robbantásértelmirobbantás értelmi
savbázisegyensúlysav-bázisegyensúly
sorszálhasogatóhajszálhasogató
telefonnövekedéstelefonállomány-növekedés
telefonminisztertávközlési miniszter
.  missing connecting
character
vízlóvíziló
kórházdolgozókórházi dolgozó
nemzetkormánynemzeti kormány
vízbiciklivízibicikli
távollétdíjtávolléti díj
szövetségkapitányszövetségi kapitány
.  missing characterspénzomláspénzromlás
szegcsontszegycsont
redőkapitányrendőrkapitány
regerációregeneráció
kilátástankilátástalan
parancsokságparancsnokság
pehelykönnypehelykönnyű
saturációszaturáció
sebatlaszzsebatlasz
sebmetszészsebmetszés
sortkocsisportkocsi
szakkönnyszakkönyv
szaktálcaszaktárca
szárügyvédsztárügyvéd
sülcsirkesültcsirke
tenisztárteniszsztár
táncfolyamtánctanfolyam
válságdíjváltságdíj
rendellenségrendellenesség
rendfelosztásrendfeloszlatás
salaktanítósalaktalanító
szakkiáltásszakkiállítás
szervormányszervo kormány
szervszivattyúszervoszivattyú
számtanulásszámtantanulás
sülhússzaftsülthússzaft
püspöküvegpüspöksüveg
agyarországMagyarország
koponyasokaságkoponya sokaság
körfigyelemkör figyelem
lomtörténetirodalomtörténet
lomtudományirodalomtudomány
mandulajárványmandulagyulladás-járvány
masszahozambiomasszahozam
mezalkotmánynemezalkotmány
munkabeszélésmunkamegbeszélés
munkaválaszmunkaválasztás
segítőtársegítőtárs
sejtburjánsejtburjánzás
szaknyugatészaknyugat
szerforráslőszerforrás
szergazdarendszergazda
telőanyagszigetelőanyag
torszárnykolostorszárny
torszülötttorzszülött
tókilincsajtókilincs
vényalkotótörvényalkotó
sortminisztersportminiszter
szettörvénytermészettörvény
szárnyitogatószárnynyitogató
tanhallgatóorvostanhallgató
torkerékpármotorkerékpár
tornahálózatcsatornahálózat
tornanyíláscsatornanyílás
torokköszörűtorokköszörülés
tranzitivástranzitivitás
társzövetségtársszövetség
téttechnikaműtéttechnika
világgazságvilággazdaság
vállaltvezetésvállalatvezetés
vállaltcsoportvállalatcsoport
vénytelepítésnövénytelepítés
vénytársaságrészvénytársaság
vényvédelemnövényvédelem
vényalkotástörvényalkotás
állképességállóképesség
stewardesstewardess
szabálytanszabálytalan
számtanárszámtantanár
színvonatszínvonalat
szöveganyaszöveganyag
szövegmezszövegmező
tárasztaltáraasztal
versenyheversenyhelyzet
vámörvényvámtörvény
várparancsvárparancsnok
állagjegyállagjegyzék
rendszervezésrendszerszervezés
szeméremdobszeméremdomb
tőberendezésvetítőberendezés
viselőcsoportképviselőcsoport
viselőtestületképviselőtestület
városparancsvárosparancsnok
lójáratgyulladáshallójáratgyulladás
ruházásösztönzésberuházásösztönzés
résszolgáltatásrészszolgáltatás
szervezetbűnözésszervezett bűnözés
szálodarobbantásszállodarobbantás
térszalagszakadástérdszalagszakadás
ismeretfurdaláslelkiismeretfurdalás
külügymisztériumkülügyminisztérium
lomszolgáltatástartalomszolgáltatás
teljesítményomlásteljesítményromlás
.  mixed up charactersmodorolajmotorolaj
nyalászárónyílászáró
nyelvvizslanyelvvizsga
szagüzletszaküzlet
modernlámpamodemlámpa
ultramodemultramodern
redőtisztrendőrtiszt
sejtreszelék,
lajtreszelék
sajtreszelék
lápaernyő,
lámaernyő
lámpaernyő
pofisízőprofisíző
nyomnövénygyomnövény
költségverésköltségvetés
munkaagyimunkaügyi
magközelítésmegközelítés
magnyilvánulásmegnyilvánulás
nyomtatvénynyomtatvány
sudárdózissugárdózis
tanalmozótartalmazó
tanácsöléstanácsülés
terepüléstelepülés
tormászástornászás
tűréshatástűréshatár
várlázítóvérlázító
városszálivárosszéli
ácsingázóácsingózó
sometológussumerológus
sortávokságsortávolság
szagdolgozatszakdolgozat
szagszervezetszakszervezet
szagtekintélyszaktekintély
szagterületszakterület
szagértelemszakértelem
szerencsediószerecsendió
szobaforgásszóban forgás
szolgatátásszolgáltatás
szolgálattátásszolgáltatás
szolágáltatásszolgáltatás
terratóriumterritórium
testelöltéstestet-öltés
tromfosztástrónfosztás
trutyimutyitutyimutyi
tárvénykönyvtörvénykönyv
téldolgozásfeldolgozás
világholnapvilághonlap
várásközpontvárosközpont
színvonulószínvonalú
várómarhavágómarha
árnyokolóárnyékoló
részlehajlásrészrehajlás
rózsakiáltásrózsakiállítás
tárriogatástámogatás
válaszoltárválaszoltál
válaszoltásválaszoltál
várveregetésvállveregetés
vásároldatóvásárolgató
végbéltussolásvégbéltusolás
vényközpontrendezvényközpont
zavaradottságzavarodottság
zökkenőmentészökkenőmentes
államlapításállamalapítás
államvizslaállamvizsga
átadásvételadásvétel
kormaghatározáskormeghatározás
láncdalfesztiváltáncdalfesztivál
nyomőskülönbségnyomáskülönbség
nyoszolyaasszonynyoszolyóasszony
rációfrekvenciarádiófrekvencia
ráncdalfesztiváltáncdalfesztivál
szerencsemosdatásszerecsenmosdatás
szoltárfordítászsoltárfordítás
magkülönböztetésmegkülönböztetés
menteteljesítménymenetteljesítmény
szemvényvesztésszemfényvesztés
szériafelszeretésszériafelszerelés
.  plural in compund wordzsernyákokságzsernyákság
munkásokosztálymunkásosztály
tárgyalásokalkutárgyalások alku
.  added character(s)köbvetkezőkövetkező
könyvhullatáskönnyhullatás
következezőkövetkező
piknikkeléspiknikelés
piktorgrammpiktogramm
szarvsasiszarvasi
szerevezésszervezés
szerszettszerzett
szintfoltszínfolt
állormányállomány
pártaállamipártállami
rendelkezdésrendelkezés
rendelékezettrendelkezett
szaggatótanszaggatóan
szervezetésszervezés
részgálicrézgálic
rétorfika retorika
tartárjárástatárjárás
transzakciótranzakció
vállalakozásvállalkozás
váltsághelyzetválsághelyzet
vényasszonyvénasszony
zavartartászavartatás
zsilipellészsilipelés
sportrolósportoló
toppmodelltopmodell
topplistatoplista
szerverezetszervezet
szervevezésszervezés
szolgaáltatásszolgáltatás
választátásválasztás
váltsághozóválsághozó
hulladéktárrolóhulladéktároló
lakászszövetkezetlakásszövetkezet
légyszennyezettséglégszennyezettség
légykondicionálólégkondicionáló
magánygyűjteménymagángyűjtemény
részvénytársasságrészvénytársaság
izzadtsággyöngyizzadsággyöngy
telefontközponttelefonközpont
.  accent errorruhalázítóruhalazító
passzívitáspasszivitás
rececsapatrécecsapat
partfogaspártfogás
légtérsertéslégtérsértés
borruhabőrruha
kürtöskalácskürtőskalács
nacifelvonulásnáci felvonulás
partkarrierpártkarrier
szakállásszakállas
szelepszarszelepszár
szobajövőszóbajövő
szörnyírásszőrnyírás
tettrekesztettrekész
pánszlavizmuspánszlávizmus
szintenyészetszíntenyészet
teveriportertévériporter
tizenegyesrugótizenegyesrúgó
szervízellátásszervizellátás
szervízvezetőszervizvezető
partkongresszuspártkongresszus
rendorgyilkosságrendőrgyilkosság
tevefilmsorozattévéfilmsorozat
kilóméterhosszúkilométerhosszú
mikróhullámkibocsátásmikrohullámkibocsátás
artificially created
'funny' words
kocsonyatanúkoronatanú
ránctalpaslánctalpas
bőrfűrészkörfűrész
körömfontkörmönfont
koncertdongókoncert dongó
nyakleveskockanyakleves kocka
oroszlánszívóoroszlánszívű
sráckarikafrászkarika
szájbeszédszóbeszéd
teszthaláltetszhalál
pártforduláspálfordulás
rádiócsőtésztarádiócső tészta
tapasznyalástapasztalás
tollázgatástollászkodás
trendszvettertrendszetter
trónvitorlástrónbitorlás
sínpatikusszimpatikus
teflonszámtelefonszám
sajtóorgazmussajtóorgánum
stricimackómicimackó
stúdióraportstúdióriport
sírószövetségírószövetség
trónfoszlástrónfosztás
tényfékezésfényképezés
információhagymainformáció hagyma
leányanyacsavarleány anyacsavar
holnapfogyatkozáshol napfogyatkozás
szaksegédmunkásszakmunkás segédmunkás
misspelled conjugated
words
kompreszortkompresszort
kosármecsetkosármeccset
oxidációfókaoxidációfok
pillanatfalpillanattal
sorszamatsorszámát
szakképzetszakképzett
szegyelemszégyellem
tekercsértekercsért
területcinterületein
testsulyomtestsúlyom
tulajdonnatulajdona
tárgyaknatárgyaknak
térfogatótérfogatú
tévedésértévedésért
programjattprogramját
szerzeteségszerzetesség
szitáláshonszitáláshoz
színhelyjelszínhellyel
többszöröségtöbbszörösét
éghajlathonéghajlaton
süteményhegsüteményhez
területeténterületén
otthonteremtesiotthonteremtési
rosszindulatbúbrosszindulatúbb

The estimated count of erroneously generated words for Hungarian and German is round 4.9 Milliard words. This, because the not compounded word count is approximately 70 thousand words, this makes 70 thousand x 70 thousand combined words = 4.9 Mrd, out of them approximately one million words are correct and used words, the rest are errors. The one million used words is the result of the analysis of the languages using generated corpuses. This is a very rough estimation, the real error count is presumably higher.

The checking of a 30 million word size corpus proved, that the words, that are automatically created compound words, contain approximately 10% wrong words of the above types. Automatic word compounding is a quick a dirty mechanizm, that is not capable to create quality word lists and therefore quality spell checking. Manually created word lists, if carefully created, tend to contain less than 0.5% wrong words.

Memory size and speed considerations

Studies in the 1990's years mention that it is necessary to keep the spell checker word lists small in order to keep search times in acceptable limits, and also to save computer storage. If a word list contains 800 thousand words, each 14 characters long, that takes 16 MB store (800 thousand * 20). I assumed for each word 1 character and 4 flags. Including the slash then each word needs 20 characters. The search times are also below 1/2 second for each word, which is acceptable.

For embedded applications, for example cell phones it does make sense to keep a core word list of say 300 thousand words, which gives acceptable spell check quality for simple everyday texts and conversations.