२७ जून, २०१९

दिसतं तसं नसतं!

आंबा शब्द लिहिताना अ + काना + अनुस्वार असे न लिहिता आ + अनुस्वार असे लिहावे. उदा. खाली दिलेले दोन शब्द कॉपी पेस्ट करून गूगलमध्ये शोध घेतल्यास वेगवेगळे रिजल्ट मिळातात. पहिला शब्द चूक असल्याने कमी तर दुसरा बरोबर असल्याने त्याला जास्त.

अांबा
आंबा

टेक्निकली पाहिले तर पहिल्या शब्दाची लांबी ५ भरते तर दुसऱ्याची ४. तेंव्हा कमी बाईटमध्ये बसणारा दुसरा आंबाच बरोबर!

चुकीचाः ['अ', 'ा', 'ं', 'ब', 'ा']
बरोबरः ['आ', 'ं', 'ब', 'ा']

वर दिलेले दोन शब्द गुगलच्या फॉन्ट पेजमध्ये पेस्ट करून  "Apply to all fonts” देऊन पहा.

https://fonts.google.com/?subset=devanagari

असेच चुकीचे लिहीलेले इतर काही शब्दः

अांघोळ
अांतरराष्ट्रीय
अांतर्वक्र
अांध्र
अांव
_____

ही समस्या इतर शब्दांमध्ये येत नाही. कारण "कांता" हा शब्द लिहिताना क + आ + अं असाच लिहावा लागतो. त्याला दुसरा पर्याय नाही. “अ” आणि "आ” यांना मात्र युनिकोडमध्ये स्वतंत्र स्थान दिले गेले आहे. म्हणजे आ किंवा ई ही "अ” ची बाराखडी नसून ते स्वतंत्र स्वर आहेत. म्हणून अ + आ + अं आणि आ + अं हे दोन्ही सारखे दिसले तरी पूर्णतः वेगळे शब्द आहेत (युनिकोडच्या दृष्टीने)
_____

'अ + काना' शोधून त्याला 'आ' ने बदलण्यासाठी लिनक्समध्ये sed कमांड अशी वापरता येते.

sed -i 's/अा/आ/g' mytext5.txt
_____

जी गोष्ट आंबा या शब्दाची तीच ॲपल या शब्दाची.

अ + ॅ + प + ल असे न  लिहिता एकसंध ॲ + प + ल असे लिहावे.  खाली दिलेले दोन शब्द गुगलमध्ये टाकले तर वेगवेगळे रिझल्ट्स मिळतात.

ॲपल

अॅपल

विकिपीडियावर देखील चुकीच्या पद्धतीने लिहलेला ॲपल होता, तो निनावी या बॉटद्वारे गेल्या वर्षी सुधारला गेला. संपूर्ण नेट सुधारणारा बॉट अजून जन्माला यायचा आहे. तेव्हा आपणच लिहिताना काळजी घ्यायला हवी.

https://tinyurl.com/y6tv8564

प्रमुख आय.एम.ई मध्ये अशा प्रकारे लिहावा.  A_pal

युनिकोडच्या चार्टमध्ये खास मराठीसाठी असा याचा उल्लेख आहे. तेव्हा मराठी माणसांनी संघर्ष करून मिळवलेले हे अक्षर सोडता कामा नये.

https://unicode.org/charts/PDF/U0900.pdf

वर दिलेल्या पी.डी.एफ. मध्ये हा उल्लेख आहे...

Independent vowel for Marathi
0972 ॲ DEVANAGARI LETTER CANDRA A
_____

मराठी विकिपीडियाच्या मालकांच्या संगणकावर सगळं काही ठीक दिसत असल्याने बाकीच्या हजारो लोकांना काय दिसत आहे?, युनिकोडच्या नियमात काय बसते?  अशा फालतू गोष्टींची चर्चा निरुद्योगी लोकांना करू द्यावी. कोणाला खाली दाखवल्याप्रमाणे विक़ीचे पान दिसत असेल तर त्यातील चुकांकडे दुर्लक्ष करावे किंवा मग मालक सांगतील तो फॉन्ट डाऊनलोड करावा!


_____

आजोबा शब्दातील "जो” हे अक्षर ज + आ + ओ असे लिहीता येते किंवा मग डायरेक्ट ज + ओ असे लिहीता येते.

x = 'आजाेबा'
for i in x:
    print (i)








y = 'आजोबा'
for i in y:
    print (i)







len(x), len(y)
(6, 5)

पहिल्या प्रकारातील "जो” साठी 6 बाईट्स तर दुसऱ्यात फक्त 5 बाईट्स खर्च होतात. गुगलमधे दुसऱ्या प्रकारच्या आजोबाला खूप रिजल्ट मिळतात तर पहिल्या आजोबाला फारच कमी.

https://www.google.com/search?q=%E0%A4%86%E0%A4%9C%E0%A4%BE%E0%A5%87%E0%A4%AC%E0%A4%BE

(सुमारे १००० पाने)

https://www.google.com/search?q=%E0%A4%86%E0%A4%9C%E0%A5%8B%E0%A4%AC%E0%A4%BE

(सुमारे ५,००,००० पाने)

हे दोन्ही आजोबा दिसायला अगदी सारखे दिसतात. पण काही ठिकाणी त्यांचे पितळ उघडे पडते. नीर-क्षिर विवेक केला की हंस तो हंस आणि बगळा तो बगळा.
_____

जी गोष्ट आजोबांची तीच त्यांच्या ओसरीची! या शब्दातही थेट "ओ” न वापरता "आ + ओ” वापरला तर माझ्यासारख्या छिद्रान्वेषी लोकांच्या भावना दुखावल्या जातात!

z = 'आेसरी'
for i in z:
    print (i)







z1 = 'ओसरी'
for i in z1:
    print (i)






len(z), len(z1)
(5, 4)
_____

ज ला ा असा काना काढून मग े किंवा ो जोडणे युनिकोडच्या दृष्टीने चूक हे आपण वर पाहिले. तसेच आती या शब्दात त ला 'आ'कार काढून मग ी जोडणे चूक. कारण असे केल्याने जे अक्षर बनते ते कोणत्याच भाषेत वापरले जात नाही.

x = 'आताी'

वरच्या शब्दात ा ला ी जोडली आहे. हा शब्द ना तर "आता” असेल ना तर "आती”.

for i in x:
    print (i)






अशी अतरंगी अक्षरे काढताच येऊ नयेत अशी व्यवस्था बहुतेक एडिटरमध्ये असतेच. पण तरीदेखील काही हुशार मंडळी हे जमवतात आणि सर्वांचा ताप वाढवतात. जा हे अक्षर पहा कसे काढले आहेः

x = 'ज्ाा '
for i in x:
    print (i)





_____

ओ पर्यंत जाण्यासाठी आता डायरेक्ट गाडी आहे. अ + आ + ओ असा द्रविडी प्राणायाम करावा लागत नाही. तसेच औ चे देखील आहे. तीन अक्षरी शब्द 'औषध' हा नेमक्या तीन बाईट्समध्येच बसतो.

x = 'औषध'
for i in x:
    print (i)





खाली दाखविल्याप्रमाणे जर ४ बाईट वापरले, तर तो तुटक दिसेल आणि गूगलमध्ये धडपणे इंडेक्सही होणार नाही.

x = 'आैषध'
for i in x:
    print (i)





_____

on / off  हा शब्द मराठीत लिहीताना अ + आ + 'ॅ' किंवा आ + 'ॅ' असे न लिहिता थेट ऑ लिहावा.

x='आॅन'
[i for i in x]
['आ', 'ॅ', 'न']

वर दिलेल्या उदाहरणात ३ बाईट खर्च झाले तर खाली दिलेल्या उदाहरणात फक्त २ बाईट लागले. मारवाड्यासारखा एक एक बाईट वाचवूया. थेंबा थेंबाने तळं साचतं म्हणतात ना? बाईट वाचवण्याचे बरेच फायदे आहेत. पेज डाऊनलोडचा स्पीड वाढेल. पान सेव्ह करताना कमी मेमरी लागेल वगैरे.

y = 'ऑन'
[i for i in y]
['ऑ', 'न']

पाॅलिश या शब्दाची फोड अशी दिसेल.

x = "पाॅलिश"
for i in x:
    print(i)
ि

प + आ + ऑ हा क्रम चुकीचा असून प + ऑ हा क्रम बरोबर आहे. खाली दिलेला पायथॉन कोड वापरून असे इतर शब्द शोधता येतील.

mylist = list()
for i in open("stackdata1.txt"):
    mylist.append(i.split("/"))
    
for i in mylist:
    if "पाॅलिश"[1:3] in i[0]:
        print(i)

आता पाॅलिश शब्द शोधून त्याला पॉलिश बनवावे लागेल. मग त्याची फोड अशी दिसेल.

ि

चुकीचा पॉलिश शब्द ६ तर योग्य शब्द फक्त ५ बाईट्स खातो. एका बाईटची कमाई!
_____

'फाँ' हे अक्षर ३ प्रकारे लिहीता येते.

x = "फ" + "ा" + "ँ"
y = "फ" + "ॉ" + "ं"
z = "फ" + "ा" + "ॅ" + "ं"

यातील पहिली (x) पद्धत बरोबर असून इतर दोन पद्धती वापरू नयेत.  उदाहरणार्थ:

x = "काँग्रेस"
[i for i in x]
['क', 'ा', 'ँ', 'ग', '्', 'र', 'े', 'स'] > correct

y = "कॉंग्रेस"
[i for i in y]
['क', 'ॉ', 'ं', 'ग', '्', 'र', 'े', 'स'] > wrong

_____

बरोबर : ट्विट ['ट', '्', 'व', 'ि', 'ट']
चूक : टि्वट ['ट', 'ि', '्', 'व', 'ट']

_____

काही काही एडिटरमध्ये पूर्णविरामाच्या जागी पायमोडके अक्षर निर्माण होते. म्हणजे जे. काढले की असे काहीतरी दिसते... ज्ो

हीच समस्या युबंटू लाईव्ह सिडीच्या आयट्रान्स प्रणालीत मला दिसून आली होती.

https://www.maayboli.com/node/51711

त्यात मी लिहीले होतेः
या समस्यांवर काही उपाय मिळतो का ते पहायला हव्e. (पहा 'हवे' शब्द टाईप करून पूर्णविराम द्यावा तर ए. चे e. होत आहे. )
_____

माझ्या भावनांचं जाऊ द्या. गूगलमध्ये आपले लेखन नीट इंडेक्स न होणं परवडणारं आहे का? हजारो लोकांच्या संगणकावर आपला लेख तुटक दिसणं तुम्हाला चालणार आहे का? 

_____

Adding these entries to autocorrect list of Libreoffice:

.*अा.* आ
.*आे.* ओ
.*आै.* औ
.*आॅ.* ऑ
.*अ‍ॅ.* ॲ
.*ऎ.* ऐ
.*ाे.* ो
.*ाॅ.* ॉ
.*ॉं.* ाँ
.*ॅं.* ँ
.*र्‍य.* ऱ्य
.*र्‍ह.* ऱ्ह
.*ध्द.* द्ध
अभी.* अभि
प्रती.* प्रति
अनू.* अनु
अधी.* अधि
अती.* अति
.*ु ू