आंबा शब्द लिहिताना अ + काना + अनुस्वार असे न लिहिता आ + अनुस्वार असे लिहावे. उदा. खाली दिलेले दोन शब्द कॉपी पेस्ट करून गूगलमध्ये शोध घेतल्यास वेगवेगळे रिजल्ट मिळातात. पहिला शब्द चूक असल्याने कमी तर दुसरा बरोबर असल्याने त्याला जास्त.
अांबा
आंबा
टेक्निकली पाहिले तर पहिल्या शब्दाची लांबी ५ भरते तर दुसऱ्याची ४. तेंव्हा कमी बाईटमध्ये बसणारा दुसरा आंबाच बरोबर!
चुकीचाः ['अ', 'ा', 'ं', 'ब', 'ा']
बरोबरः ['आ', 'ं', 'ब', 'ा']
वर दिलेले दोन शब्द गुगलच्या फॉन्ट पेजमध्ये पेस्ट करून "Apply to all fonts” देऊन पहा.
https://fonts.google.com/?subset=devanagari
असेच चुकीचे लिहीलेले इतर काही शब्दः
अांघोळ
अांतरराष्ट्रीय
अांतर्वक्र
अांध्र
अांव
'फाँ' हे अक्षर ३ प्रकारे लिहीता येते.
x = "फ" + "ा" + "ँ"
y = "फ" + "ॉ" + "ं"
z = "फ" + "ा" + "ॅ" + "ं"
यातील पहिली (x) पद्धत बरोबर असून इतर दोन पद्धती वापरू नयेत. उदाहरणार्थ:
काही काही एडिटरमध्ये पूर्णविरामाच्या जागी पायमोडके अक्षर निर्माण होते. म्हणजे जे. काढले की असे काहीतरी दिसते... ज्ो
हीच समस्या युबंटू लाईव्ह सिडीच्या आयट्रान्स प्रणालीत मला दिसून आली होती.
https://www.maayboli.com/node/51711
त्यात मी लिहीले होतेः
या समस्यांवर काही उपाय मिळतो का ते पहायला हव्e. (पहा 'हवे' शब्द टाईप करून पूर्णविराम द्यावा तर ए. चे e. होत आहे. )
माझ्या भावनांचं जाऊ द्या. गूगलमध्ये आपले लेखन नीट इंडेक्स न होणं परवडणारं आहे का? हजारो लोकांच्या संगणकावर आपला लेख तुटक दिसणं तुम्हाला चालणार आहे का?
अांबा
आंबा
टेक्निकली पाहिले तर पहिल्या शब्दाची लांबी ५ भरते तर दुसऱ्याची ४. तेंव्हा कमी बाईटमध्ये बसणारा दुसरा आंबाच बरोबर!
चुकीचाः ['अ', 'ा', 'ं', 'ब', 'ा']
बरोबरः ['आ', 'ं', 'ब', 'ा']
वर दिलेले दोन शब्द गुगलच्या फॉन्ट पेजमध्ये पेस्ट करून "Apply to all fonts” देऊन पहा.
https://fonts.google.com/?subset=devanagari
असेच चुकीचे लिहीलेले इतर काही शब्दः
अांघोळ
अांतरराष्ट्रीय
अांतर्वक्र
अांध्र
अांव
_____
ही समस्या इतर शब्दांमध्ये येत नाही. कारण "कांता" हा शब्द लिहिताना क + आ + अं असाच लिहावा लागतो. त्याला दुसरा पर्याय नाही. “अ” आणि "आ” यांना मात्र युनिकोडमध्ये स्वतंत्र स्थान दिले गेले आहे. म्हणजे आ किंवा ई ही "अ” ची बाराखडी नसून ते स्वतंत्र स्वर आहेत. म्हणून अ + आ + अं आणि आ + अं हे दोन्ही सारखे दिसले तरी पूर्णतः वेगळे शब्द आहेत (युनिकोडच्या दृष्टीने)
_____
'अ + काना' शोधून त्याला 'आ' ने बदलण्यासाठी लिनक्समध्ये sed कमांड अशी वापरता येते.
sed -i 's/अा/आ/g' mytext5.txt
_____
जी गोष्ट आंबा या शब्दाची तीच ॲपल या शब्दाची.
अ + ॅ + प + ल असे न लिहिता एकसंध ॲ + प + ल असे लिहावे. खाली दिलेले दोन शब्द गुगलमध्ये टाकले तर वेगवेगळे रिझल्ट्स मिळतात.
ॲपल
अॅपल
विकिपीडियावर देखील चुकीच्या पद्धतीने लिहलेला ॲपल होता, तो निनावी या बॉटद्वारे गेल्या वर्षी सुधारला गेला. संपूर्ण नेट सुधारणारा बॉट अजून जन्माला यायचा आहे. तेव्हा आपणच लिहिताना काळजी घ्यायला हवी.
https://tinyurl.com/y6tv8564
प्रमुख आय.एम.ई मध्ये अशा प्रकारे लिहावा. A_pal
युनिकोडच्या चार्टमध्ये खास मराठीसाठी असा याचा उल्लेख आहे. तेव्हा मराठी माणसांनी संघर्ष करून मिळवलेले हे अक्षर सोडता कामा नये.
https://unicode.org/charts/PDF/U0900.pdf
वर दिलेल्या पी.डी.एफ. मध्ये हा उल्लेख आहे...
Independent vowel for Marathi
0972 ॲ DEVANAGARI LETTER CANDRA A
ही समस्या इतर शब्दांमध्ये येत नाही. कारण "कांता" हा शब्द लिहिताना क + आ + अं असाच लिहावा लागतो. त्याला दुसरा पर्याय नाही. “अ” आणि "आ” यांना मात्र युनिकोडमध्ये स्वतंत्र स्थान दिले गेले आहे. म्हणजे आ किंवा ई ही "अ” ची बाराखडी नसून ते स्वतंत्र स्वर आहेत. म्हणून अ + आ + अं आणि आ + अं हे दोन्ही सारखे दिसले तरी पूर्णतः वेगळे शब्द आहेत (युनिकोडच्या दृष्टीने)
_____
'अ + काना' शोधून त्याला 'आ' ने बदलण्यासाठी लिनक्समध्ये sed कमांड अशी वापरता येते.
sed -i 's/अा/आ/g' mytext5.txt
_____
जी गोष्ट आंबा या शब्दाची तीच ॲपल या शब्दाची.
अ + ॅ + प + ल असे न लिहिता एकसंध ॲ + प + ल असे लिहावे. खाली दिलेले दोन शब्द गुगलमध्ये टाकले तर वेगवेगळे रिझल्ट्स मिळतात.
ॲपल
अॅपल
विकिपीडियावर देखील चुकीच्या पद्धतीने लिहलेला ॲपल होता, तो निनावी या बॉटद्वारे गेल्या वर्षी सुधारला गेला. संपूर्ण नेट सुधारणारा बॉट अजून जन्माला यायचा आहे. तेव्हा आपणच लिहिताना काळजी घ्यायला हवी.
https://tinyurl.com/y6tv8564
प्रमुख आय.एम.ई मध्ये अशा प्रकारे लिहावा. A_pal
युनिकोडच्या चार्टमध्ये खास मराठीसाठी असा याचा उल्लेख आहे. तेव्हा मराठी माणसांनी संघर्ष करून मिळवलेले हे अक्षर सोडता कामा नये.
https://unicode.org/charts/PDF/U0900.pdf
वर दिलेल्या पी.डी.एफ. मध्ये हा उल्लेख आहे...
Independent vowel for Marathi
0972 ॲ DEVANAGARI LETTER CANDRA A
_____
मराठी विकिपीडियाच्या मालकांच्या संगणकावर सगळं काही ठीक दिसत असल्याने बाकीच्या हजारो लोकांना काय दिसत आहे?, युनिकोडच्या नियमात काय बसते? अशा फालतू गोष्टींची चर्चा निरुद्योगी लोकांना करू द्यावी. कोणाला खाली दाखवल्याप्रमाणे विक़ीचे पान दिसत असेल तर त्यातील चुकांकडे दुर्लक्ष करावे किंवा मग मालक सांगतील तो फॉन्ट डाऊनलोड करावा!
_____
आजोबा शब्दातील "जो” हे अक्षर ज + आ + ओ असे लिहीता येते किंवा मग डायरेक्ट ज + ओ असे लिहीता येते.
x = 'आजाेबा'
for i in x:
print (i)
आ
ज
ा
े
ब
ा
y = 'आजोबा'
for i in y:
print (i)
आ
ज
ो
ब
ा
len(x), len(y)
(6, 5)
पहिल्या प्रकारातील "जो” साठी 6 बाईट्स तर दुसऱ्यात फक्त 5 बाईट्स खर्च होतात. गुगलमधे दुसऱ्या प्रकारच्या आजोबाला खूप रिजल्ट मिळतात तर पहिल्या आजोबाला फारच कमी.
https://www.google.com/search?q=%E0%A4%86%E0%A4%9C%E0%A4%BE%E0%A5%87%E0%A4%AC%E0%A4%BE
(सुमारे १००० पाने)
https://www.google.com/search?q=%E0%A4%86%E0%A4%9C%E0%A5%8B%E0%A4%AC%E0%A4%BE
(सुमारे ५,००,००० पाने)
हे दोन्ही आजोबा दिसायला अगदी सारखे दिसतात. पण काही ठिकाणी त्यांचे पितळ उघडे पडते. नीर-क्षिर विवेक केला की हंस तो हंस आणि बगळा तो बगळा.
_____
जी गोष्ट आजोबांची तीच त्यांच्या ओसरीची! या शब्दातही थेट "ओ” न वापरता "आ + ओ” वापरला तर माझ्यासारख्या छिद्रान्वेषी लोकांच्या भावना दुखावल्या जातात!
z = 'आेसरी'
for i in z:
print (i)
आ
े
स
र
ी
z1 = 'ओसरी'
for i in z1:
print (i)
ओ
स
र
ी
len(z), len(z1)
(5, 4)
_____
ज ला ा असा काना काढून मग े किंवा ो जोडणे युनिकोडच्या दृष्टीने चूक हे आपण वर पाहिले. तसेच आती या शब्दात त ला 'आ'कार काढून मग ी जोडणे चूक. कारण असे केल्याने जे अक्षर बनते ते कोणत्याच भाषेत वापरले जात नाही.
x = 'आताी'
वरच्या शब्दात ा ला ी जोडली आहे. हा शब्द ना तर "आता” असेल ना तर "आती”.
for i in x:
print (i)
आ
त
ा
ी
अशी अतरंगी अक्षरे काढताच येऊ नयेत अशी व्यवस्था बहुतेक एडिटरमध्ये असतेच. पण तरीदेखील काही हुशार मंडळी हे जमवतात आणि सर्वांचा ताप वाढवतात. जा हे अक्षर पहा कसे काढले आहेः
x = 'ज्ाा '
for i in x:
print (i)
ज
्
ा
ा
_____
ओ पर्यंत जाण्यासाठी आता डायरेक्ट गाडी आहे. अ + आ + ओ असा द्रविडी प्राणायाम करावा लागत नाही. तसेच औ चे देखील आहे. तीन अक्षरी शब्द 'औषध' हा नेमक्या तीन बाईट्समध्येच बसतो.
x = 'औषध'
for i in x:
print (i)
औ
ष
ध
खाली दाखविल्याप्रमाणे जर ४ बाईट वापरले, तर तो तुटक दिसेल आणि गूगलमध्ये धडपणे इंडेक्सही होणार नाही.
x = 'आैषध'
for i in x:
print (i)
आ
ै
ष
ध
_____
on / off हा शब्द मराठीत लिहीताना अ + आ + 'ॅ' किंवा आ + 'ॅ' असे न लिहिता थेट ऑ लिहावा.
x='आॅन'
[i for i in x]
['आ', 'ॅ', 'न']
वर दिलेल्या उदाहरणात ३ बाईट खर्च झाले तर खाली दिलेल्या उदाहरणात फक्त २ बाईट लागले. मारवाड्यासारखा एक एक बाईट वाचवूया. थेंबा थेंबाने तळं साचतं म्हणतात ना? बाईट वाचवण्याचे बरेच फायदे आहेत. पेज डाऊनलोडचा स्पीड वाढेल. पान सेव्ह करताना कमी मेमरी लागेल वगैरे.
y = 'ऑन'
[i for i in y]
['ऑ', 'न']
मराठी विकिपीडियाच्या मालकांच्या संगणकावर सगळं काही ठीक दिसत असल्याने बाकीच्या हजारो लोकांना काय दिसत आहे?, युनिकोडच्या नियमात काय बसते? अशा फालतू गोष्टींची चर्चा निरुद्योगी लोकांना करू द्यावी. कोणाला खाली दाखवल्याप्रमाणे विक़ीचे पान दिसत असेल तर त्यातील चुकांकडे दुर्लक्ष करावे किंवा मग मालक सांगतील तो फॉन्ट डाऊनलोड करावा!
_____
आजोबा शब्दातील "जो” हे अक्षर ज + आ + ओ असे लिहीता येते किंवा मग डायरेक्ट ज + ओ असे लिहीता येते.
x = 'आजाेबा'
for i in x:
print (i)
आ
ज
ा
े
ब
ा
y = 'आजोबा'
for i in y:
print (i)
आ
ज
ो
ब
ा
len(x), len(y)
(6, 5)
पहिल्या प्रकारातील "जो” साठी 6 बाईट्स तर दुसऱ्यात फक्त 5 बाईट्स खर्च होतात. गुगलमधे दुसऱ्या प्रकारच्या आजोबाला खूप रिजल्ट मिळतात तर पहिल्या आजोबाला फारच कमी.
https://www.google.com/search?q=%E0%A4%86%E0%A4%9C%E0%A4%BE%E0%A5%87%E0%A4%AC%E0%A4%BE
(सुमारे १००० पाने)
https://www.google.com/search?q=%E0%A4%86%E0%A4%9C%E0%A5%8B%E0%A4%AC%E0%A4%BE
(सुमारे ५,००,००० पाने)
हे दोन्ही आजोबा दिसायला अगदी सारखे दिसतात. पण काही ठिकाणी त्यांचे पितळ उघडे पडते. नीर-क्षिर विवेक केला की हंस तो हंस आणि बगळा तो बगळा.
_____
जी गोष्ट आजोबांची तीच त्यांच्या ओसरीची! या शब्दातही थेट "ओ” न वापरता "आ + ओ” वापरला तर माझ्यासारख्या छिद्रान्वेषी लोकांच्या भावना दुखावल्या जातात!
z = 'आेसरी'
for i in z:
print (i)
आ
े
स
र
ी
z1 = 'ओसरी'
for i in z1:
print (i)
ओ
स
र
ी
len(z), len(z1)
(5, 4)
_____
ज ला ा असा काना काढून मग े किंवा ो जोडणे युनिकोडच्या दृष्टीने चूक हे आपण वर पाहिले. तसेच आती या शब्दात त ला 'आ'कार काढून मग ी जोडणे चूक. कारण असे केल्याने जे अक्षर बनते ते कोणत्याच भाषेत वापरले जात नाही.
x = 'आताी'
वरच्या शब्दात ा ला ी जोडली आहे. हा शब्द ना तर "आता” असेल ना तर "आती”.
for i in x:
print (i)
आ
त
ा
ी
अशी अतरंगी अक्षरे काढताच येऊ नयेत अशी व्यवस्था बहुतेक एडिटरमध्ये असतेच. पण तरीदेखील काही हुशार मंडळी हे जमवतात आणि सर्वांचा ताप वाढवतात. जा हे अक्षर पहा कसे काढले आहेः
x = 'ज्ाा '
for i in x:
print (i)
ज
्
ा
ा
_____
ओ पर्यंत जाण्यासाठी आता डायरेक्ट गाडी आहे. अ + आ + ओ असा द्रविडी प्राणायाम करावा लागत नाही. तसेच औ चे देखील आहे. तीन अक्षरी शब्द 'औषध' हा नेमक्या तीन बाईट्समध्येच बसतो.
x = 'औषध'
for i in x:
print (i)
औ
ष
ध
खाली दाखविल्याप्रमाणे जर ४ बाईट वापरले, तर तो तुटक दिसेल आणि गूगलमध्ये धडपणे इंडेक्सही होणार नाही.
x = 'आैषध'
for i in x:
print (i)
आ
ै
ष
ध
_____
on / off हा शब्द मराठीत लिहीताना अ + आ + 'ॅ' किंवा आ + 'ॅ' असे न लिहिता थेट ऑ लिहावा.
x='आॅन'
[i for i in x]
['आ', 'ॅ', 'न']
वर दिलेल्या उदाहरणात ३ बाईट खर्च झाले तर खाली दिलेल्या उदाहरणात फक्त २ बाईट लागले. मारवाड्यासारखा एक एक बाईट वाचवूया. थेंबा थेंबाने तळं साचतं म्हणतात ना? बाईट वाचवण्याचे बरेच फायदे आहेत. पेज डाऊनलोडचा स्पीड वाढेल. पान सेव्ह करताना कमी मेमरी लागेल वगैरे.
y = 'ऑन'
[i for i in y]
['ऑ', 'न']
पाॅलिश या शब्दाची फोड अशी दिसेल.
x = "पाॅलिश"
for i in x:
print(i)
प
ा
ॅ
ल
ि
श
प + आ + ऑ हा क्रम चुकीचा असून प + ऑ हा क्रम बरोबर आहे. खाली दिलेला पायथॉन कोड वापरून असे इतर शब्द शोधता येतील.
mylist = list()
for i in open("stackdata1.txt"):
mylist.append(i.split("/"))
for i in mylist:
if "पाॅलिश"[1:3] in i[0]:
print(i)
आता पाॅलिश शब्द शोधून त्याला पॉलिश बनवावे लागेल. मग त्याची फोड अशी दिसेल.
प
ॉ
ल
ि
श
चुकीचा पॉलिश शब्द ६ तर योग्य शब्द फक्त ५ बाईट्स खातो. एका बाईटची कमाई!
_____'फाँ' हे अक्षर ३ प्रकारे लिहीता येते.
x = "फ" + "ा" + "ँ"
y = "फ" + "ॉ" + "ं"
z = "फ" + "ा" + "ॅ" + "ं"
यातील पहिली (x) पद्धत बरोबर असून इतर दोन पद्धती वापरू नयेत. उदाहरणार्थ:
x = "काँग्रेस"
[i for i in x]
['क', 'ा', 'ँ', 'ग', '्', 'र', 'े', 'स'] > correct
y = "कॉंग्रेस"
[i for i in y]
['क', 'ॉ', 'ं', 'ग', '्', 'र', 'े', 'स'] > wrong
_____
बरोबर : ट्विट ['ट', '्', 'व', 'ि', 'ट']
चूक : टि्वट ['ट', 'ि', '्', 'व', 'ट']
_____
काही काही एडिटरमध्ये पूर्णविरामाच्या जागी पायमोडके अक्षर निर्माण होते. म्हणजे जे. काढले की असे काहीतरी दिसते... ज्ो
हीच समस्या युबंटू लाईव्ह सिडीच्या आयट्रान्स प्रणालीत मला दिसून आली होती.
https://www.maayboli.com/node/51711
त्यात मी लिहीले होतेः
या समस्यांवर काही उपाय मिळतो का ते पहायला हव्e. (पहा 'हवे' शब्द टाईप करून पूर्णविराम द्यावा तर ए. चे e. होत आहे. )
_____
माझ्या भावनांचं जाऊ द्या. गूगलमध्ये आपले लेखन नीट इंडेक्स न होणं परवडणारं आहे का? हजारो लोकांच्या संगणकावर आपला लेख तुटक दिसणं तुम्हाला चालणार आहे का?
_____
Adding these entries to autocorrect list of Libreoffice:
.*अा.* आ
.*आे.* ओ
.*आै.* औ
.*आॅ.* ऑ
.*अॅ.* ॲ
.*ऎ.* ऐ
.*ाे.* ो
.*ाॅ.* ॉ
.*ॉं.* ाँ
.*ॅं.* ँ
.*र्य.* ऱ्य
.*र्ह.* ऱ्ह
.*ध्द.* द्ध
अभी.* अभि
प्रती.* प्रति
अनू.* अनु
अधी.* अधि
अती.* अति
.*ु ू