SMILES
SMILES(Simplified molecular input line entry specification),简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范。SMILES由Arthur Weininger和David Weininger于20世纪80年代晚期开发,并由其他人,尤其是日光化学信息系统有限公司(Daylight Chemical Information Systems Inc.),修改和扩展。
由于SMILES用一串字符来描述一个三维化学结构,它必然要将化学结构转化成一个生成树,此系统采用纵向优先遍历树算法。转化时,先要去掉氢,还要把环打开。表示时,被拆掉的键端的原子要用数字标记,支链写在小括号里。
SMILES字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。转换成二维图形可以使用Helson的“结构图生成算法”(Structure Diagram Generation algorithms)。
目录 |
1 语法
SMILES由一系列没有空格的字符组成的字符串来表示,氢原子可以忽略。
1.1 原子
原子由其在元素周期表中的符号来表示,每个非氢的原子都应该用中括号[]包围,但如果当B, C, N, O, P, S, F, Cl, Br, I原子所带的氢原子与其最低正常化合价一致时,中括号可以忽略,这些原子的最低正常化合价是:B(3), C(4), O(2), P(3,5), S(2,4,6), 卤素为1。也就是说,如果忽略的中括号,将用氢原子来补足价数。芳香环中的原子由小写的字母来表示,例如,脂肪族的碳由C来表示,芳香族的由c来表示。例如下表:
| C | methane(甲烷) | (CH4) |
| P | phosphine(磷化氢) | (PH3) |
| N | ammonia(氨气) | (NH3) |
| S | hydrogen sulfide(硫化氢) | (H2S) |
| O | water(水) | (H2O) |
| Cl | hydrochloric acid(氯化氢) | (HCl) |
任何原子如果其化合价与最低正常化合价不一致时,必须用中括号包围。如[S]表示单质硫。
在中括号之内的原子,其所带的氢原子及电荷必须被标示,氢可以由H来表示,可以有选择的携带数字;电荷由+或-来表示;如:
| [H+] | proton(质子氢) | [Fe+2] | iron (II) cation(二价铁离子) |
| [OH-] | hydroxyl anion(氢氧根离子) | [Fe++] | iron (II) cation(二价铁离子) |
| [OH3+] | hydronium cation(水合氢离子) | [NH4+] | ammonium cation(氨根离子) |
1.2 键
单键、双键、叁键、芳香键,分别由-,=,#,:来表示,单键和芳香键可以忽略,例如:
| CC | ethane | (CH3CH3) |
| C=O | formaldehyde | (CH2O) |
| C=C | ethene | (CH2=CH2) |
| O=C=O | carbon dioxide | (CO2) |
| COC | dimethyl ether | (CH3OCH3) |
| C#N | hydrogen cyanide | (HCN) |
| CCO | ethanol | (CH3CH2OH) |
| [H][H] | molecular hydrogen | (H2) |
1.3 支链
支链由圆括号包围,默认圆括号包围的基团是左边原子的支链。如:
1.4 环结构
表示环结构是通过把环结构从任一位置打开,用数字来指定断开位置的原子,该数字要跟在断开位置的原子之后。用环己烷为例:
当然,选择不同的断开位置,得到的SMILES就会不同。
1.5 异构
异构SMILES是指扩展的,可以表示同位素、手性和双键结构的SMILES版本。它的一个显著特征是可以精确的说明局部手性。
双键两侧的结构分别用符号/和\表示,例如,F/C=C/F表示反二氟乙烯,它的两个氟原子位于双键的两侧;而F/C=C\F表示顺二氟乙烯,它的两个氟原子位于双键的同一侧。
2 参考文献
- 中文维基百科:SMILES
- Daylight Chemical Information Systems. Daylight Theory Manual. [EB/OL], 2008-01-02. [2011-08-08]. http://www.daylight.com/dayhtml/doc/theory/index.pdf.