[eside-ghost] diferencias entre iso y utf
Emet-Jon Velasco Montero
evelasco en linkanet.net
Mar Jun 8 19:06:34 CEST 2004
Aupa Aktor !
Primero dejar claro que los juegos de caracteres en principio no son
mas que tablas que convierten unos bytes a caracteres.
Las iso-8859-X son estándares que relacionan cada byte con un caracter.
Como sólo se pueden representar 256 caracteres, hay varias tablas que
hacen conversiones distintas para poder representar los caracteres de
todo el mundo. Los juegos de caracteres unicode utilizan o pueden
utilizar mas de un byte por cada caracter, por lo que son menos optimos
en espacio, pero se pueden representar muchos mas caracteres. En
concreto el formato utf-8 funciona tal que si un byte es menor de 128,
entonces representa al mismo caracter que la iso,y si es mayor entonces
evalúa el siguiente byte para formar el caracter. De esa manera un
caracter puede ocupar dos o tres bytes. No se si me he explicado...
Parece claro que como ventajas/desventajas está que el UTF-8 ocupa mas
espacio pero puede representar todos los caracteres que quieras y está
muy optimizado. De hecho por lo que he leido por ahí, la mayoría
recomienda UTF-8 para las páginas web y eso.
En cuanto a poner UTF-8 como locales de linux, no soy un experto, pero
intenté poner el núcleo por defecto en UTF-8 y no me representaba bien
la salida de algunas aplicaciones, incluso algunos archivos se veían
raros. Tendré que seguir probando o a ver si este flame nos arroja a
todos un poco de luz en el asunto.
En fin, saludos a todos,
Emet_"
aKtoR wrote:
> Aupi,
>
> Ultimamente me rondan varias dudas sobre los juegos de caracteres
> (charset).
>
> No hace demasiado tiempo y como sustitución a los juegos de caracteres
> tradicionales, obsoletos e insuficientes aparecieron los nuevos juegos
> UTF.
>
> Mi duda es si alguien puesto en el tema puede explicar de forma un poco
> más clara las principales diferencias entre los juegos de caracteres,
> cuando interesa utilizar unos u otros y hacia que se debe tender...
>
> Lo que tengo más o menos claro (o confuso xD) es lo siguiente:
>
> - tenemos iso-8859-1, que es el juego de caracteres de Latin 1, el
> que usamos en europa occidental para representar casi todos los caracteres.
> - Ademas el iso-8859-1 es el que se usa como codificación del gran parte
> de los contenidos HTML y XHTML.
> - Nos hicimos europeos y llegó el euro, apareciendo el juego de
> caracteres iso-8859-15 que soportaba el símbolo que muchos no podemos
> ver en nuestros mua's. €
> - Por último, como deficiencia a nuevos símbolos y como estandar a los
> diferentes juegos de caracteres existentes por el mundo aparecieron
> los UTF. UTF-8 y UTF-16.
> - Estos últimos también estan soportados por la codificación empleada
> para los navegadores web.
>
> Ahora mis preguntas xD:
>
> - ¿Cual es el que debo configurar en linux en las locales?
> - ¿Cual es el que debo configurar en linux en el kernel?
> - ¿Conviene definir varios charset en las locales?
> - ¿Cual es el que debo configurar en editores de texto tipo 'gedit' al
> salvar un documento de texto?
> - ¿Cual es el que debo utilizar al enviar mails?
> - ¿Cual es el que debo utilizar en los documentos html y xhtml para que
> llegue a más gente?
> - ¿Cual es el que debo utilizar en los documentos html y xhtml para que
> sea más estandar?
> - ¿Cual es el que debo utilizar en los documentos html y xhtml para que
> se adapte a los nuevos cambios/estandares?
>
> - ¿Ventajas y desvenajas de cada uno?
>
> Bueno... espero que alguno tenga las cosas algo más claras que yo o al
> menos comparta mis dudas ;).
>
> pd: si sale un buen hilo con buena info me comprometo a hacer un doc
> sobre ello ;). Thx
>
> saludos
>
> aktor
>
--
.:Emet-Jon Velasco Montero:.
vivo en emetjon en euskalnet.net
trabajo en evelasco en linkanet.net
--
Por una Europa libre de patentes de programación.
Más información sobre la lista de distribución eside-ghost