Simplified Molecular Input Line Entry Specification

ÔĽŅ
Simplified Molecular Input Line Entry Specification

Le Simplified Molecular Input Line Entry Specification ou SMILES est un langage symbolique de description de la structure des mol√©cules chimiques sous forme de courtes cha√ģnes de caract√®res ASCII. Les cha√ģnes SMILES peuvent √™tre import√©es dans la plupart des √©diteurs de structure mol√©culaire pour √™tre reconverties en repr√©sentation 2D ou en mod√®le 3D, et par cons√©quent, permettent de construire des bases de donn√©es informatiques (relativement) simplement.

La définition du langage SMILES a été initialement introduite par David Weininger à la fin des années 1980[1]. Plusieurs extensions et modifications ont été ajoutées depuis, notamment par la société Daylight Chemical Information Systems, dont Weininger est le fondateur. Il existe d'autres langages à ligne de texte pour représenter les molécules, dont notamment InChl, introduit par l'IUPAC. SMILES est cependant plus répandu, car plus facile à lire par l'utilisateur humain et surtout parce qu'il est implémenté dans de nombreux logiciels de chimie moléculaire.

Sommaire

Principes de SMILES et théorie des graphes

SMILES est b√Ęti sur la repr√©sentation d'une mol√©cule chimique sous forme d'un graphe, au sens math√©matique du terme. Les atomes sont les sommets du graphe, et les liaisons chimiques en sont les ar√™tes. Chaque sommet du graphe est √©tiquet√© avec le symbole de l'atome correspondant (C, N, O‚Ķ).

La cha√ģne de caract√®re SMILES correspondant √† une mol√©cule donn√©e est obtenue en parcourant progressivement le graphe suivant un algorithme de parcours en profondeur et en imprimant successivement le symbole de chaque sommet travers√©. Le graphe de la mol√©cule est pr√©alablement simplifi√© en supprimant tous les atomes d'hydrog√®ne (notation implicite) et en ouvrant les cycles pour transformer le graphe en arbre couvrant (spanning tree). √Ä chaque fois qu'un cycle est ouvert, un suffixe num√©rique est ajout√© pour indiquer la connexion des sommets correspondant √† la liaison chimique supprim√©e. Des parenth√®ses sont utilis√©es pour indiquer les points de branchement sur l'arbre.

De par la nature de ce langage, il existe, pour une m√™me mol√©cule organique constitu√©e de plusieurs atomes autres que l'hydrog√®ne, plusieurs √©critures possibles, selon l'atome de d√©part et l'ordre de parcours de la structure mol√©culaire. Ainsi, CCO, OCC, C(C)O et C(O)C sont toutes quatre des repr√©sentations valides de la mol√©cule d'√©thanol CH3‚ÄďCH2‚ÄďOH.

Les principes théoriques du langage SMILES sont présentés de manière exhaustive sur le manuel du SMILES théorique proposé par Daylight Chemical Information Systems (en anglais).

Mise en Ňďuvre et exemples

Exemple de d√©rivation de repr√©sentation SMILES. A. Structure de la mol√©cule, la ciprofloxacine. B. Suppression des hydrog√®nes, ouverture des cycles et num√©rotation. C. Arbre couvrant la structure d√©-cyclis√©e. D. Cha√ģne SMILES correspondante, le code couleur correspond √† la couleur des branches sur le panneau C.

Atomes

Les atomes sont repr√©sent√©s par leur symbole chimique entre crochets, comme [Se] pour le s√©l√©nium. Les crochets peuvent √™tre omis pour les √©l√©ments usuels de la chimie organique : C, N, O, P, S, B, F, Cl, Br et I. Tous les autres √©l√©ments doivent √™tre mis entre crochets. Lorsque les crochets sont omis, les valences libres de chaque atome sont implicitement suppos√©es √™tre compl√©t√©es par des atomes d'hydrog√®ne. Par exemple, la repr√©sentation SMILES de l'eau est O, celle de l'√©thanol est CCO.

Un atome portant une ou plusieurs charges √©lectriques est plac√© entre crochets (quel qu'il soit), suivi du symbole H s'il est li√© √† un ou plusieurs atomes d'hydrog√®ne (ceux-ci sont alors suivis de leur nombre [sauf s'il n'y en a qu'un] : NH4 pour l'ammonium), puis du signe '+' pour une charge positive, ou du signe '-' pour une charge n√©gative. Le nombre des charges est alors sp√©cifi√© apr√®s le signe (sauf s'il n'y en a qu'une) ; il est cependant aussi possible d'√©crire le signe de la charge autant de fois que l'ion en poss√®de : au lieu de "Ti+4", on peut tr√®s bien √©crire "Ti++++" (Titane IV, Ti4+). Ainsi, l'anion hydroxyde est repr√©sent√© par [OH-], le cation oxonium par [OH3+], et le cation cobalt III (Co3+) par [Co+3], ou [Co+++].

Liaisons

La liaison simple est implicite et n'est pas représentée (elle est facultative, afin de ne pas surcharger la séquence). CC représente donc l'éthane et CCC, le propane. La double liaison est représentée par le symbole "=" et la triple liaison par le symbole "#". L'éthylène est donc C=C, et le cyanure d'hydrogène, C#N.

Ramifications

Les ramifications de la structure mol√©culaire sont indiqu√©es entre parenth√®ses, imm√©diatement apr√®s l'atome sur lequel elles sont branch√©es. Par exemple CC(=O)O repr√©sente l'acide ac√©tique, avec deux atomes d'oxyg√®ne branch√©s sur le carbone du groupement carboxylique. Lorsque deux ramifications partent du m√™me atome, la ramification suivante est plac√©e imm√©diatement apr√®s la fin de parenth√®se de la premi√®re : la formule du dim√©thylpropane sera donc CC(C)(C)C. Les ramifications peuvent √™tre encha√ģn√©es et imbriqu√©es pour d√©crire des structures mol√©culaires plus complexes, comme par exemple celle de l'acide citrique : OC(=O)CC(O)(CC(O)=O)C(O)=O.

Visualisation du 3-cyanoanisole comme COc(c1)cccc1C#N.

Cycles

La fermeture des cycles est indiqu√©e par des chiffres plac√©s apr√®s les atomes qui sont reli√©s. Le cyclohexane est repr√©sent√© par C1CCCCC1, les deux "1" servant de labels indiquant que les deux carbones qui les pr√©c√®dent sont reli√©s, formant un cycle √† six atomes. De m√™me, la formule SMILE du 1,1-dim√©thylcyclopentane sera C1CCCC(C)(C)1 ; celle du 3-cyanoanisole (3-methoxybenzonitrile) pourra √™tre COc(c1)cccc1C#N (voir ci-contre). Pour un deuxi√®me cycle, le label sera 2 (naphtal√®ne : c1cccc2c1cccc2) ; au del√† de 9, le signe '%' doit pr√©c√©der le label, afin de le diff√©rencier de deux labels distincts li√©s au m√™me atome (~C12~ signifiera que l'atome de carbone porte les liaisons de fermeture de cycle 1 et 2, tandis que ~C%12~ indiquera un seul label, le 12).

Aromaticité

Les atomes C, N, O, S participant √† un cycle aromatique sont repr√©sent√©s en minuscule par 'c', 'n', 'o' et 's', respectivement. Les doubles liaisons sont rarement indiqu√©es de mani√®re explicite. Le benz√®ne est ainsi repr√©sent√© par c1ccccc1 (plut√īt que par C1=CC=CC=C1, qui correspond √† la formule de Kekul√©), et le furane c1cocc1. Les liaisons entre des atomes aromatiques sont consid√©r√©es par d√©faut comme aromatiques, bien que cette liaison aromatique puisse √™tre explicitement sp√©cifi√©e avec le symbole ':'. De fait, pour indiquer une liaison simple entre deux anneaux (ou atomes) aromatiques, on doit la repr√©senter par son symbole '-', habituellement omis afin de ne pas surcharger la s√©quence. Le biph√©nyle sera donc repr√©sent√© par c1ccccc1-c2ccccc2. Un atome d'azote aromatique li√© √† un atome d'hydrog√®ne, tel celui de la mol√©cule de pyrrole, doit √™tre repr√©sent√© [nH] ; le pyrrole sera donc repr√©sent√© c1c[nH]cc1, et l'imidazole n1c[nH]cc1.

Les algorithmes de Daylight et de OpenEye, permettant de g√©n√©rer des cha√ģnes SMILES canoniques diff√®rant dans leur traitement de l'aromaticit√©.

Stéréochimie

le cis-1,2-difluoroéthène, dont la représentation SMILES est F/C=C\F

La configuration des doubles liaisons carbone-carbone est repr√©sent√©e avec des caract√®res '/' et '\', plac√©s autour des carbones concern√©s. Ainsi, F/C=C/F est une repr√©sentation du trans-1,2-difluoro√©th√®ne (les atomes de fluor ne se trouvent pas "en face" l'un de l'autre), et F/C=C\F une repr√©sentation du cis-1,2-difluoro√©th√®ne (les atomes de fluor se trouvent du m√™me c√īt√© par rapport √† l'axe de la double liaison). Cependant, le fait que le deuxi√®me slash ait la m√™me orientation '/' ou non '\' ne signifie pas que la double liaison est trans ou cis, mais simplement que le premier radical suivant la double liaison est du m√™me c√īt√© que celui qui la pr√©c√®de (slashs oppos√©s "/C=C\" ou "\C=C/") ou du c√īt√© oppos√© (slashs de m√™me sens). Ainsi, le trans-2-hydroxybut-2-√®ne aura pour formule possible C/C=C(/C)O, ou encore C/C=C(\O)C, et le cis-2-hydroxybut-2-√®ne deviendra C/C=C(\C)O.

La configuration des atomes de carbones asym√©triques et des centres chiraux est, quant √† elle, indiqu√©e par le symbole '@'. L'exemple le plus commun est la L-Alanine (acide 2S-aminoprano√Įque), √©nantiom√®re repr√©sent√© par la formule N[C@@H](C)C(=O)O. Ici, "@@" signifie que les radicaux ‚ÄďH, ‚ÄďCH3 et ‚ÄďC(=O)OH sont dispos√©s dans le sens des aiguilles d'une montre autour du carbone chiral, si l'on observait celui-ci depuis la position de l'atome d'azote. les radicaux ‚ÄďH n'√©tant pas directement repr√©sent√©s dans la notation SMILES, si un carbone chiral en poss√®de un, il doit √™tre accol√© aux arobases, entre les crochets "[]", et se trouve donc en premi√®re place dans l'ordre des radicaux. √Čcrire N[C@@H](C)C(=O)O revient donc √† √©crire N[C@@][H](C)C(=O)O. √Ä l'inverse, un seul symbole '@' indique une lecture dans le sens inverse des aiguille d'une montre (sens antihoraire) des radicaux suivants l'atome chiral. La D-Alanine (acide 2R-aminoprano√Įque), reflet de son homologue L vue √† travers un miroir, peut donc √™tre √©crite N[C@H](C)C(=O)O ou encore N[C@@H](C(=O)O)C (le fait d'√©changer l'ordre des radicaux m√©thyle et carboxyle a le m√™me effet qu'inverser le sens de rotation).

Isotopes

Un isotope peut être spécifié en plaçant l'atome concerné entre crochets et en faisant précéder son symbole par son numéro atomique. Ainsi, une molécule de benzène dotée d'un atome de carbone-14 pourra être écrite [14C]1ccccc1, tandis que le chloroforme deutérié sera [2H]C(Cl)(Cl)Cl.

Autres possibilités du langage SMILES

Deux molécules ou ions distincts peuvent être représentés dans une même formule SMILES. Leurs formules respectives sont alors séparées par le caractère '.'. Ainsi, le chlorure de sodium ne sera pas représenté par [Na]Cl, ni par [Na+][Cl-] mais par [Na+].[Cl-] (il s'agit d'une liaison ionique).

Par ailleurs, il est possible de repr√©senter des √©quations chimiques, √† l'aide du caract√®re '>', R√ČACTIFS >> PRODUITS pour une r√©action simple et R√ČACTIFS > AGENT > PRODUITS pour une r√©action faisant intervenir un agent qui n'y participera pas directement (catalyseur). C=C.O=O.O=O.O=O>>O=C=O.O=C=O.O sera don √©quivalent √† CH2=CH2 + 3 O2 ‚Üí 2 CO2 + H2O (combustion de l'√©th√®ne).

Application sur des molécules de natures variées

Molécule Structure Formule SMILES
Diazote N‚Č°N N#N
Isocyanate de m√©thyle (MIC) CH3‚ÄďN=C=O CN=C=O
Sulfate de cuivre Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-]
Ňínanthotoxine (C17H22O2) Structure mol√©culaire de l'Ňďnanthotoxine CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
Pyréthrine II (C21H28O5) Structure moléculaire de la pyrethrine II COC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2)CC=CC=C
Aflatoxine B1 (C17H12O6) Structure moléculaire de l'aflatoxine B1 O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
Glucose (glucopyranose) (C6H12O6) Structure moléculaire du glucopyranose OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1
Cuscutine alias Bergenin (résine) (C14H16O9) Structure moléculaire de la cuscutine (bergenin) OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
Une phéromone de la cochenille californienne (3Z, 6R)-3-methyl-6-(prop-1-en-2-yl)deca-3,9-dien-1-yl acetate CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
2S,5R-Chalcogran : ph√©romone du scolyte Pityogenes chalcographus[2] (2S, 5R)-2-ethyl-1,6-dioxaspiro[4.4]nonane CC[C@H](O1)CC[C@@]12CCCO2
Vanilline Structure moléculaire de la vanilline O=Cc1ccc(O)c(OC)c1
Mélatonine (C13H16N2O2) Structure moléculaire de la mélatonine CC(=O)NCCC1=CNc2c1cc(OC)cc2
Flavopéréirine (C17H15N2) Structure moléculaire de la flavopereirine CCc(c1)ccc2[n+]1ccc3c2Nc4c3cccc4
Nicotine (C10H14N2) Structure moléculaire de la nicotine CN1CCC[C@H]1c2cccnc2
Alpha-thujone (C10H16O) Structure moléculaire de la thujone CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
Thiamine (C12H17N4OS+)
(vitamine B1)
Structure moléculaire de la thiamine OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2

Illustration avec une mol√©cule de plus de 9 cycles, la C√©phalostatine-1[3] (mol√©cule st√©ro√Įdique de formule brute C54H74N2O10 issue d'un ver marin de la famille des Hydrophiloidea, Cephalodiscus gilchristi) :

Structure moléculaire de la céphalostatine-1

Donnera, en partant du radical m√©thyle le plus √† gauche sur la figure :

C[C@@](C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

(Remarquez les '%' devant l'indice des labels de fermeture de cycle supérieur à 9, voir la section "Cycles", plus haut).

Conversion

Il existe des algorithmes informatiques pour transformer automatiquement le sch√©ma d'une mol√©cule donn√©e en cha√ģne SMILES. Comme il n'existe en g√©n√©ral pas de description unique d'une mol√©cule, il y a √©galement plusieurs SMILES pouvant d√©crire la m√™me structure chimique. Tout d√©pend de l'atome dont on part pour d√©crire la structure, de l'ordre dans lequel on d√©crit les branches du graphe mol√©culaire et de la mani√®re dont on ouvre les cycles. Par exemple, c1ccccc1o et c1ccc(o)cc1 sont deux repr√©sentations SMILES synonymes du ph√©nol.

Réciproquement, la description SMILES d'une molécule peut être reconvertie en représentation chimique 2D classique, au moyen d'algorithmes de représentation de graphe.

La méthode SMILES permet d'échanger numériquement des descriptions de molécules arbitrairement complexes par le biais d'un fichier texte classique. La représentation SMILES étant très compacte, elle permet de stocker simplement des fichiers de plusieurs centaines de milliers de molécules (chimiothèques).

Extensions

SMILES Isomérique

Il existe des extensions du langage SMILES permettant de décrire la chiralité et la conformation des doubles liaisons. On peut ainsi décrire la conformation R ou S d'un carbone asymétrique ou l'isomérie cis/trans. On peut également décrire les états de protonation, la présence d'isotopes spécifiques et même décrire des schémas réactionnels.

SMARTS

SMARTS est une extension de SMILES qui permet, en plus des définitions classiques, de remplacer des atomes ou des liaisons par des jokers. Ceci est utilisé pour spécifier des motifs chimiques utilisés pour des recherches dans des banques de données de molécules (chimiothèques). Cela permet en particulier la recherche de sous-structures chimiques communes à deux molécules.

Voir aussi

Références

  1. ‚ÜĎ D. Weininger ; SMILES, a Chemical Language and Information System. 1. Introduction to Methodology and Encoding Rules" (1988) J. Chem. Inf. Comput. Sci. 28:31-36
  2. ‚ÜĎ ISOLATION OF PHEROMONE SYNERGISTS OF BARK BEETLE, Pityogenes chalcographus, FROM COMPLEX INSECT-PLANT ODORS BY FRACTIONATION AND SUBTRACTIVE-COMBINATION BIOASSAY
  3. ‚ÜĎ PubChem Compound CID=183413 (C√©phalostatine-1)



Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Simplified Molecular Input Line Entry Specification de Wikipédia en français (auteurs)

Regardez d'autres dictionnaires:

  • Simplified molecular input line entry specification ‚ÄĒ Le Simplified Molecular Input Line Entry Specification ou SMILES est un langage symbolique de description de la structure des mol√©cules chimiques sous forme de courtes cha√ģnes de caract√®res ASCII. Les cha√ģnes SMILES peuvent √™tre import√©es dans la ‚Ķ   Wikip√©dia en Fran√ßais

  • Simplified Molecular Input Line Entry Specification ‚ÄĒ (SMILES) ist ein chemischer Strukturcode, bei dem die Struktur beliebiger Molek√ľle stark vereinfacht als (ASCII )Zeichenkette wiedergegeben werden. Mehrere Molek√ľl Editoren k√∂nnen SMILES Strings importieren und so 2 dimensionale und 3… ‚Ķ   Deutsch Wikipedia

  • Simplified molecular input line entry specification ‚ÄĒ Infobox file format name = smiles extension = .smi mime = owner = creatorcode = genre = chemical file format container for = contained by = extended from = extended to = The simplified molecular input line entry specification or SMILES is a… ‚Ķ   Wikipedia

  • Simplified molecular input line entry specification ‚ÄĒ SMILES (Simplified Molecular Input Line Entry Specification, –į–Ĺ–≥–Ľ. —Ā–Ņ–Ķ—Ü–ł—Ą–ł–ļ–į—Ü–ł—Ź —É–Ņ—Ä–ĺ—Č–Ķ–Ĺ–Ĺ–ĺ–≥–ĺ –Ņ—Ä–Ķ–ī—Ā—ā–į–≤–Ľ–Ķ–Ĺ–ł—Ź –ľ–ĺ–Ľ–Ķ–ļ—É–Ľ –≤ —Ā—ā—Ä–ĺ–ļ–Ķ –≤–≤–ĺ–ī–į)¬† —Ā–ł—Ā—ā–Ķ–ľ–į –Ņ—Ä–į–≤–ł–Ľ (—Ā–Ņ–Ķ—Ü–ł—Ą–ł–ļ–į—Ü–ł—Ź) –ĺ–ī–Ĺ–ĺ–∑–Ĺ–į—á–Ĺ–ĺ–≥–ĺ –ĺ–Ņ–ł—Ā–į–Ĺ–ł—Ź —Ā–ĺ—Ā—ā–į–≤–į –ł —Ā—ā—Ä—É–ļ—ā—É—Ä—č –ľ–ĺ–Ľ–Ķ–ļ—É–Ľ—č —Ö–ł–ľ–ł—á–Ķ—Ā–ļ–ĺ–≥–ĺ –≤–Ķ—Č–Ķ—Ā—ā–≤–į —Ā… ‚Ķ   –í–ł–ļ–ł–Ņ–Ķ–ī–ł—Ź

  • Sp√©cification d'√©criture simplifi√©e des mol√©cules ‚ÄĒ Simplified Molecular Input Line Entry Specification Le Simplified Molecular Input Line Entry Specification ou SMILES est un langage symbolique de description de la structure des mol√©cules chimiques sous forme de courtes cha√ģnes de caract√®res… ‚Ķ   Wikip√©dia en Fran√ßais

  • Line notation ‚ÄĒ is a typographical notation system using ASCII characters, most often used for chemical nomenclature.Chemistry* International Chemical Identifier (InChI) * ROSDAL * Wiswesser Line Notation (WLN) * Simplified molecular input line entry… ‚Ķ   Wikipedia

  • Smiles arbitrary target specification ‚ÄĒ (SMARTS) is a language for specifying substructural patterns in molecules. The SMARTS line notation is expressive and allows extremely precise and transparent substructural specification and atom typing.SMARTS is related to the SMILES line… ‚Ķ   Wikipedia

  • SYBYL Line Notation ‚ÄĒ Infobox file format name = sybyl line notation extension = .sln mime = owner = creatorcode = genre = chemical file format container for = contained by = extended from = extended to = The SYBYL line notation or SLN is a specification for… ‚Ķ   Wikipedia

  • Wiswesser Line Notation ‚ÄĒ (WLN) ist ein komplizierter und auch veralteter linearer Strukturcode f√ľr chemische Verbindungen, erfunden 1954 von W. J. Wiswesser. Einzelne Buchstaben geben ein bestimmtes Strukturfragment wieder, eine Zeichenkette gibt die gesamte Struktur… ‚Ķ   Deutsch Wikipedia

  • Notation SMILES ‚ÄĒ Simplified Molecular Input Line Entry Specification Le Simplified Molecular Input Line Entry Specification ou SMILES est un langage symbolique de description de la structure des mol√©cules chimiques sous forme de courtes cha√ģnes de caract√®res… ‚Ķ   Wikip√©dia en Fran√ßais


Share the article and excerpts

Direct link
… Do a right-click on the link above
and select ‚ÄúCopy Link‚ÄĚ

We are using cookies for the best presentation of our site. Continuing to use this site, you agree with this.