२७ जून, २०१९

दिसतं तसं नसतं!

आंबा शब्द लिहिताना अ + काना + अनुस्वार असे न लिहिता आ + अनुस्वार असे लिहावे. उदा. खाली दिलेले दोन शब्द कॉपी पेस्ट करून गूगलमध्ये शोध घेतल्यास वेगवेगळे रिजल्ट मिळातात. पहिला शब्द चूक असल्याने कमी तर दुसरा बरोबर असल्याने त्याला जास्त.

अांबा
आंबा

टेक्निकली पाहिले तर पहिल्या शब्दाची लांबी ५ भरते तर दुसऱ्याची ४. तेंव्हा कमी बाईटमध्ये बसणारा दुसरा आंबाच बरोबर!

चुकीचाः ['अ', 'ा', 'ं', 'ब', 'ा']
बरोबरः ['आ', 'ं', 'ब', 'ा']

वर दिलेले दोन शब्द गुगलच्या फॉन्ट पेजमध्ये पेस्ट करून  "Apply to all fonts” देऊन पहा.

https://fonts.google.com/?subset=devanagari

असेच चुकीचे लिहीलेले इतर काही शब्दः

अांघोळ
अांतरराष्ट्रीय
अांतर्वक्र
अांध्र
अांव
_____

ही समस्या इतर शब्दांमध्ये येत नाही. कारण "कांता" हा शब्द लिहिताना क + आ + अं असाच लिहावा लागतो. त्याला दुसरा पर्याय नाही. “अ” आणि "आ” यांना मात्र युनिकोडमध्ये स्वतंत्र स्थान दिले गेले आहे. म्हणजे आ किंवा ई ही "अ” ची बाराखडी नसून ते स्वतंत्र स्वर आहेत. म्हणून अ + आ + अं आणि आ + अं हे दोन्ही सारखे दिसले तरी पूर्णतः वेगळे शब्द आहेत (युनिकोडच्या दृष्टीने)
_____

'अ + काना' शोधून त्याला 'आ' ने बदलण्यासाठी लिनक्समध्ये sed कमांड अशी वापरता येते.

sed -i 's/अा/आ/g' mytext5.txt
_____

जी गोष्ट आंबा या शब्दाची तीच ॲपल या शब्दाची.

अ + ॅ + प + ल असे न  लिहिता एकसंध ॲ + प + ल असे लिहावे.  खाली दिलेले दोन शब्द गुगलमध्ये टाकले तर वेगवेगळे रिझल्ट्स मिळतात.

ॲपल

अॅपल

विकिपीडियावर देखील चुकीच्या पद्धतीने लिहलेला ॲपल होता, तो निनावी या बॉटद्वारे गेल्या वर्षी सुधारला गेला. संपूर्ण नेट सुधारणारा बॉट अजून जन्माला यायचा आहे. तेव्हा आपणच लिहिताना काळजी घ्यायला हवी.

https://tinyurl.com/y6tv8564

प्रमुख आय.एम.ई मध्ये अशा प्रकारे लिहावा.  A_pal

युनिकोडच्या चार्टमध्ये खास मराठीसाठी असा याचा उल्लेख आहे. तेव्हा मराठी माणसांनी संघर्ष करून मिळवलेले हे अक्षर सोडता कामा नये.

https://unicode.org/charts/PDF/U0900.pdf

वर दिलेल्या पी.डी.एफ. मध्ये हा उल्लेख आहे...

Independent vowel for Marathi
0972 ॲ DEVANAGARI LETTER CANDRA A
_____

मराठी विकिपीडियाच्या मालकांच्या संगणकावर सगळं काही ठीक दिसत असल्याने बाकीच्या हजारो लोकांना काय दिसत आहे?, युनिकोडच्या नियमात काय बसते?  अशा फालतू गोष्टींची चर्चा निरुद्योगी लोकांना करू द्यावी. कोणाला खाली दाखवल्याप्रमाणे विक़ीचे पान दिसत असेल तर त्यातील चुकांकडे दुर्लक्ष करावे किंवा मग मालक सांगतील तो फॉन्ट डाऊनलोड करावा!


_____

आजोबा शब्दातील "जो” हे अक्षर ज + आ + ओ असे लिहीता येते किंवा मग डायरेक्ट ज + ओ असे लिहीता येते.

x = 'आजाेबा'
for i in x:
    print (i)








y = 'आजोबा'
for i in y:
    print (i)







len(x), len(y)
(6, 5)

पहिल्या प्रकारातील "जो” साठी 6 बाईट्स तर दुसऱ्यात फक्त 5 बाईट्स खर्च होतात. गुगलमधे दुसऱ्या प्रकारच्या आजोबाला खूप रिजल्ट मिळतात तर पहिल्या आजोबाला फारच कमी.

https://www.google.com/search?q=%E0%A4%86%E0%A4%9C%E0%A4%BE%E0%A5%87%E0%A4%AC%E0%A4%BE

(सुमारे १००० पाने)

https://www.google.com/search?q=%E0%A4%86%E0%A4%9C%E0%A5%8B%E0%A4%AC%E0%A4%BE

(सुमारे ५,००,००० पाने)

हे दोन्ही आजोबा दिसायला अगदी सारखे दिसतात. पण काही ठिकाणी त्यांचे पितळ उघडे पडते. नीर-क्षिर विवेक केला की हंस तो हंस आणि बगळा तो बगळा.
_____

जी गोष्ट आजोबांची तीच त्यांच्या ओसरीची! या शब्दातही थेट "ओ” न वापरता "आ + ओ” वापरला तर माझ्यासारख्या छिद्रान्वेषी लोकांच्या भावना दुखावल्या जातात!

z = 'आेसरी'
for i in z:
    print (i)







z1 = 'ओसरी'
for i in z1:
    print (i)






len(z), len(z1)
(5, 4)
_____

ज ला ा असा काना काढून मग े किंवा ो जोडणे युनिकोडच्या दृष्टीने चूक हे आपण वर पाहिले. तसेच आती या शब्दात त ला 'आ'कार काढून मग ी जोडणे चूक. कारण असे केल्याने जे अक्षर बनते ते कोणत्याच भाषेत वापरले जात नाही.

x = 'आताी'

वरच्या शब्दात ा ला ी जोडली आहे. हा शब्द ना तर "आता” असेल ना तर "आती”.

for i in x:
    print (i)






अशी अतरंगी अक्षरे काढताच येऊ नयेत अशी व्यवस्था बहुतेक एडिटरमध्ये असतेच. पण तरीदेखील काही हुशार मंडळी हे जमवतात आणि सर्वांचा ताप वाढवतात. जा हे अक्षर पहा कसे काढले आहेः

x = 'ज्ाा '
for i in x:
    print (i)





_____

ओ पर्यंत जाण्यासाठी आता डायरेक्ट गाडी आहे. अ + आ + ओ असा द्रविडी प्राणायाम करावा लागत नाही. तसेच औ चे देखील आहे. तीन अक्षरी शब्द 'औषध' हा नेमक्या तीन बाईट्समध्येच बसतो.

x = 'औषध'
for i in x:
    print (i)





खाली दाखविल्याप्रमाणे जर ४ बाईट वापरले, तर तो तुटक दिसेल आणि गूगलमध्ये धडपणे इंडेक्सही होणार नाही.

x = 'आैषध'
for i in x:
    print (i)





_____

on / off  हा शब्द मराठीत लिहीताना अ + आ + 'ॅ' किंवा आ + 'ॅ' असे न लिहिता थेट ऑ लिहावा.

x='आॅन'
[i for i in x]
['आ', 'ॅ', 'न']

वर दिलेल्या उदाहरणात ३ बाईट खर्च झाले तर खाली दिलेल्या उदाहरणात फक्त २ बाईट लागले. मारवाड्यासारखा एक एक बाईट वाचवूया. थेंबा थेंबाने तळं साचतं म्हणतात ना? बाईट वाचवण्याचे बरेच फायदे आहेत. पेज डाऊनलोडचा स्पीड वाढेल. पान सेव्ह करताना कमी मेमरी लागेल वगैरे.

y = 'ऑन'
[i for i in y]
['ऑ', 'न']

पाॅलिश या शब्दाची फोड अशी दिसेल.

x = "पाॅलिश"
for i in x:
    print(i)
ि

प + आ + ऑ हा क्रम चुकीचा असून प + ऑ हा क्रम बरोबर आहे. खाली दिलेला पायथॉन कोड वापरून असे इतर शब्द शोधता येतील.

mylist = list()
for i in open("stackdata1.txt"):
    mylist.append(i.split("/"))
    
for i in mylist:
    if "पाॅलिश"[1:3] in i[0]:
        print(i)

आता पाॅलिश शब्द शोधून त्याला पॉलिश बनवावे लागेल. मग त्याची फोड अशी दिसेल.

ि

चुकीचा पॉलिश शब्द ६ तर योग्य शब्द फक्त ५ बाईट्स खातो. एका बाईटची कमाई!
_____

'फाँ' हे अक्षर ३ प्रकारे लिहीता येते.

x = "फ" + "ा" + "ँ"
y = "फ" + "ॉ" + "ं"
z = "फ" + "ा" + "ॅ" + "ं"

यातील पहिली (x) पद्धत बरोबर असून इतर दोन पद्धती वापरू नयेत.  उदाहरणार्थ:

x = "काँग्रेस"
[i for i in x]
['क', 'ा', 'ँ', 'ग', '्', 'र', 'े', 'स'] > correct

y = "कॉंग्रेस"
[i for i in y]
['क', 'ॉ', 'ं', 'ग', '्', 'र', 'े', 'स'] > wrong

_____

बरोबर : ट्विट ['ट', '्', 'व', 'ि', 'ट']
चूक : टि्वट ['ट', 'ि', '्', 'व', 'ट']

_____

काही काही एडिटरमध्ये पूर्णविरामाच्या जागी पायमोडके अक्षर निर्माण होते. म्हणजे जे. काढले की असे काहीतरी दिसते... ज्ो

हीच समस्या युबंटू लाईव्ह सिडीच्या आयट्रान्स प्रणालीत मला दिसून आली होती.

https://www.maayboli.com/node/51711

त्यात मी लिहीले होतेः
या समस्यांवर काही उपाय मिळतो का ते पहायला हव्e. (पहा 'हवे' शब्द टाईप करून पूर्णविराम द्यावा तर ए. चे e. होत आहे. )
_____

माझ्या भावनांचं जाऊ द्या. गूगलमध्ये आपले लेखन नीट इंडेक्स न होणं परवडणारं आहे का? हजारो लोकांच्या संगणकावर आपला लेख तुटक दिसणं तुम्हाला चालणार आहे का? 

_____

Adding these entries to autocorrect list of Libreoffice:

.*अा.* आ
.*आे.* ओ
.*आै.* औ
.*आॅ.* ऑ
.*अ‍ॅ.* ॲ
.*ऎ.* ऐ
.*ाे.* ो
.*ाॅ.* ॉ
.*ॉं.* ाँ
.*ॅं.* ँ
.*र्‍य.* ऱ्य
.*र्‍ह.* ऱ्ह
.*ध्द.* द्ध
अभी.* अभि
प्रती.* प्रति
अनू.* अनु
अधी.* अधि
अती.* अति
.*ु ू

२४ जून, २०१९

ऱ्य आणि ऱ्ह चा घोळ

ऱ्य काढण्याच्या दोन पद्धती आहेत.
r--y
r*y

तसेच ऱ्ह काढण्याच्या दोन.
r--h
r*h

यातील दुसरी पद्धत बरोबर असून पहिली पद्धत वापरू नये. पहिल्या पद्धतीत zero width joiner वापरला आहे. तर दुसऱ्यात नुक्ताधारी ऱ आहे. खाली दिलेले दोन्ही शब्द सारखे दिसत असले तरी गूगलमध्ये कॉपी पेस्ट केले तर वेगवेगळे रिझल्ट मिळतील.

दुसर्‍यात
दुसऱ्यात

२३ जून, २०१९

अव्ययांची लोकप्रियता

करून, वाचून, नजिक, अंती, आतून, आधी असे अव्यकाढून टाकले कारण ते हल्ली वापरले जात नाहीत. त्याऐवजी अधिक वापरले जाणारे अव्यय जसे देखील, वरील, करता घेतले. त्यासाठी विकीचा शब्द संग्रह वापरला.


https://kagapa.s3.ap-south-1.amazonaws.com/spellcheck/av2.pdf

Sample list of words with tags and the singular / plural words generated.

अतिथी/Aacdh (174 + 94)
आंधळा/e   188
अतिरेकी/e  188
अंडे/e     188
अनुभव/f   188
अडचण/g   188
अटक/i     94
अबला/j    188
अंधार/k     94
अंदाधुंद/l    94
अनास्था/n    94


२० जून, २०१९

अनियमित शब्दांचे नियमित रूप

वाणी शब्दाला e टॅग वापरून "वाण्याचे" बनवता येईल. पण अधिकारी, अनुयायी अशा शब्दांना तो टॅग वापरता येणार नाही. म्हणून अनियमित चालणाऱ्या शब्दांचे नियमित रूप करून घेऊन मग त्याला टॅग लावला.

अनुयाय/Ff

यातील पहिला F हे स्पष्ट करतो की हे अनियमित रूप असून मराठीत "अनुयाय" असा शब्द नाही. पण नंतरच्या f टॅगने बनविलेले शब्द स्वीकारण्यास काही हरकत नाही. म्हणून "अनुयायांचे"  हा शब्द बरोबर. जर असे केले नाही तर सर्व म्हणजे सुमारे १५० शब्द डिक्शनरीत केवळ एका शब्दासाठी जमा करावे लागतील. ते शक्य नाही.

SFX e Y 8
SFX e ा  ्या/Aacd ा
SFX e ा  ्यां/AFbcd ा
SFX e ी  ्या/Aacd ी
SFX e ी  ्यां/AFbcd ी
SFX e ि  ्या/Aacd ि
SFX e ि  ्यां/AFbcd ि
SFX e े  ्या/Aacd े
SFX e े  ्यां/AFbcd े

SFX f Y 2
SFX f 0  ा/AFacd .
SFX f 0  ां/AFbcd .

_____

अडवणूक
अडवणुक/Fg
अडवणुका/h

SFX g Y 2
SFX g 0  ी/AFacd .
SFX g 0  ीं/AFbcd .

SFX h Y 1
SFX h 0  ं/AFbcd .

NEEDAFFIX F

१९ जून, २०१९

शब्दांचे सामान्यरूप

शब्दांचे सामान्यरूप करताना हे हंस्पेल नियम वापरता येतील.

SFX e Y 8
SFX e ा  ्या/AFacd ा
SFX e ा  ्यां/AFbcd ा
SFX e ी  ्या/AFacd ी
SFX e ी  ्यां/AFbcd ी
SFX e ि  ्या/AFacd ि
SFX e ि  ्यां/AFbcd ि
SFX e े  ्या/AFacd े
SFX e े  ्यां/AFbcd े

आंधळा
अडाणी
अंडे

SFX j Y 2
SFX j ा  े/AFacd ा
SFX j ा  ां/AFbcd ा

अग्रपूजा
अचूकता

SFX f Y 2
SFX f 0  ा/AFacd .
SFX f 0  ां/AFbcd .

अजगर
अडसर

SFX g Y 2
SFX g 0  ी/AFacd .
SFX g 0  ीं/AFbcd .

अडचण

SFX h Y 1
SFX h 0  ं/AFbcd .

अतिथी

SFX i Y 1
SFX i 0  े/AFacd .

अखंडता

SFX k Y 1
SFX k 0  ा/AFacd .

अतिपरिचय

SFX l Y 1
SFX l 0  ां/AFbcd .

अणूबॉंब

करीत की करित?

अगदी सुरवातीला "करीत" असे लिहिले तर ऍटोकरेक्ट तो शब्द उलटवून "करित" असे करीत असे. आता हा बग सुधारला आहे. पण करित या शब्दाला "करिते" , “करियर" किम किंवा "करकरत" असे पर्याय दिसत आहेत. "करीत" असा पर्याय का दिसत नाही? यासाठी हंस्पेल शब्द कसा सुचवतो त्याचा अभ्यास करायला हवा.

ऍटोकरेक्टमधून काढायचे शब्दः
लिहिले लिहीले
अस्थिपंजर अस्थीपंजर 

स्पेलचेकमधून शब्द काढणेः
अनिर्णीत दुर्मीळ 

१८ जून, २०१९

सर्वसमावेशक की निवडक?

हंस्पेलमध्ये फक्त दोन रूलचे नेस्टिंग होऊ शकते. म्हणजे अंडे - अंड्या - अंड्याशिवाय इथपर्यंत गाडी जाऊ शकते. पुढे "अंड्याशिवायची" असा शब्द बनू शकत नाही. जर सर्व शब्द हवे असतील तर अंड्याच्या ४ नोंदी होतील.

अंडे/Z
अंड्या/Aacd
अंड्यां/Abcd
अंडी/Z

जर "अंड्याशिवाय" शब्दापर्यंत जाणारी गाडी चालणार असेल तर २ नोंदीत काम होईल. मी खात्री केली आहे की त्यापुढचे शब्द म्हणजे "अंड्याशिवायची", "अंड्याशिवायचा", "अंड्याशिवायचे" असे शब्द फार क्वचित वापरले जातात.

अंडे/Ze
अंडी/Z

नेटवरील रेसिपींमध्ये "अंड्याशिवायचा केक" असा उल्लेख दिसतो. ज्यांना खरोखरच अगदी सर्वसमावेशक डिक्शनरी हवी असेल त्यांनी वर दिलेल्या २ नोंदींबरोबर "अंड्या" आणि "अंड्यां" अशा दोन नोंदी वाढवाव्यात. मी मात्र थोडक्यात काम भागवणार आहे.