>  > カードでポイント最大34倍 3/21(木)20:00~3/26(火)1:59迄 DUNLOP ダンロップ エナセーブ RV504 ENASAVE ミニバン サマータイヤ 205/55R17 HotStuff 軽量設計!G.speed P-01 ホイールセット 4本 17インチ 17 X 7 +50 5穴 100

カードでポイント最大34倍 3/21(木)20:00~3/26(火)1:59迄 DUNLOP ダンロップ エナセーブ RV504 ENASAVE ミニバン サマータイヤ 205/55R17 HotStuff 軽量設計!G.speed P-01 ホイールセット 4本 17インチ 17 X 7 +50 5穴 100

DNA 塩基配列を文字列で表現する


(図1) この日記で書きたかったことを漫画にしました。

カードでポイント最大34倍 3/21(木)20:00~3/26(火)1:59迄 DUNLOP ダンロップ エナセーブ RV504 ENASAVE ミニバン サマータイヤ 205/55R17 日野 HotStuff 軽量設計!G.speed P-01 ホイールセット 4本 17インチ 17 X 7 +50 5穴 100 BEETLE

  • DNA の塩基配列は ATGC の 4 文字からなる文字列で表現できます。
  • 二本鎖 DNA や二本鎖 RNA を 1 次元配列で表現できるのは、塩基対によって相補鎖を求められるため。
  • DNA や RNA について調べるときに文字列の問題として計算機上で扱えば、文字列のアルゴリズムを適用できます。

NOTE: どうして専門分野外の DNA の話を?
文字列アルゴリズムに関する論文やテキストを読むと、かならずと言っていいほど「DNA は ATGC からなる文字列で表せる」と書いています。

カードでポイント最大34倍 3/21(木)20:00~3/26(火)1:59迄 DUNLOP ダンロップ エナセーブ RV504 ENASAVE ミニバン サマータイヤ 205/55R17 HotStuff 軽量設計!G.speed P-01 ホイールセット 4本 17インチ 17 X 7 +50 5穴 100







スバルレガシーB4BM9 2.5i 09年5月~ -G009-
スバルレガシーワゴンDBA-BRM -G047-
スバルレガシーワゴンBR9 2.5i Sパケ除く 09年5月~ -G013-

ホイールメーカー
HotStuff
ホイール名
軽量設計!G.speed P-01 ホイールセット 4本 17インチ
ホイールサイズ
17 x 7 インセット 50 5穴 100
ホイールカラー
ガンメタポリッシュ
ホイール商品紹介
G.スピード P-01
タイヤメーカー
DUNLOP
タイヤパターン
ダンロップ エナセーブ RV504 ENASAVE ミニバン サマータイヤ
タイヤサイズ
205/55R17 91 V
タイヤ商品紹介
ダンロップ エナセーブ RV504
ENASAVE
タイヤ種別
サマータイヤ
備考

■4本セット価格です

■ 送料無料 です(北海道・本州・九州)
沖縄等の離島は別途中継手数料をお見積りします。 

■ お届け後 直ぐに使えます( セット 販売 )
組付け、エアー充填、バランス調整後に
お引渡し(発送)致します。

■ 別途取り付け用ナットが必要です。
純正ナットは全てご使用になれません
但し下記の場合は除きます。
(欧州車の場合)
ホイール商品紹介欄に
(純正平面座ナットをお使い下さい)と
記載があり、純正ナットが平面座の場合)

■ チッソガス 充填無料。
当社での組みつけのタイヤ ホイールセット
購入の場合はチッソガスを充填致します。
但し N2 刻印エアーキャップは付属しません
通常のエアーキャップを付属します。

■ ご購入後の商品の変更、返品、交換は
できませんので予めご了承下さい。

■ ご注文の際には マッチング 確認の為、
車種名、型式、グレード、
純正タイヤサイズ、ノーマル車高、ローダウン等
お車情報の詳細をご連絡ください。

■ 掲載している商品画像はイメージです。

■ ホイール サイズ や インセット サイズなどにより、
リム 幅やセンター部の落とし込み部分の寸法が
異なります。
画像イメージと商品現物の相違による返品、
交換は一切お受けできません。
■ 新品 アルミホイール 新品 タイヤホイール 専門店 ホイル付き 4本セット ホイール付き
【17インチ】タイヤホイール4本セット。

お問合せは
株式会社タイヤスクエアミツヤ
繁忙期につき
商品ページ毎の"商品についてお問合わせ”から
お問合せください、お電話でのお問い合わせはご遠慮ください
定休日 日曜日
●●偽サイト・不正コピーサイトに注意●●
悪質な(偽サイト・コピーサイトにご注意ください)
現在ご覧頂いているアドレスが商品画面では、
https://item.rakuten.co.jp/tireshop/商品番号/
現在ご覧頂いているURLが、上記以外で
あれば偽サイト・不正コピーサイトです。

。 特に文字列の編集距離の話でよく登場します。 例えば、 Text Algorithms [MR]Algorithms on Strings [MHL] といった書籍にも出てきますし、 O(ND) Difference Algorithm [Myers] のイントロダクションでも DNA の話は出てきます。 DNA だけでなく RNA や タンパク質のアミノ酸配列の話も出てきます。 ところで、 DNA の二重らせんモデルの絵を思い浮かべてみると「どうして二重らせん構造なのに一次元配列 1本 で表せるのか」という疑問が湧き上がりました。 そこで、必要最小限の内容にしぼって「どうして DNA は文字列で表せるのか?」という話を日記に書きます カードでポイント最大34倍 3/21(木)20:00~3/26(火)1:59迄 TOYOTIRES トーヨー トランパス MPZ ミニバン TRANPATH サマータイヤ 185/65R15 WEDS ジョーカー イゴール 平座仕様(トヨタ車専用) ホイールセット 4本 15インチ 15 X 6 +45 5穴 100 【送料無料】 195/65R15 15インチ WEDS ウェッズ ヴェルバ スポルト 6J 6.00-15 YOKOHAMA ヨコハマ エコス ES31 サマータイヤ ホイール4本セット【YOsum19】。

計算機で DNA 塩基配列を扱おう

DNARNA, タンパク質 という言葉を聞くと生物学や化学の世界を最初に思い浮かべますが、計算機の上でそれらを表現できるのであれば計算機科学の世界の話として扱えます。 実は、計算機科学ではこれらを文字列として扱うことができます。 ただの文字列であれば、それがウイルスの進化系統樹の作成であろうと、もっと一般的な文字列の問題として扱うことができ、文字列のアルゴリズムを適用できます。 それでは何をどうやって文字列として扱っているのでしょうか?

DNA の塩基配列を文字列で表す

DNA (deoxyribonucleic acid, デオキシリボ核酸) の塩基配列は、ATGC の 4 文字からなる文字列 (または 1 次元配列) で表現できます。 例えば、実際の Variola virus (天然痘ウイルス) の DNA 塩基配列は次のように表現できます1

CTCGAGAGTATATGTTGTTGAACGTTATTGTTTGAGAAATAGTTGATGCATCAGAATGGTTTGCATTTAT

DNA は ヌクレオチド が鎖状に繋がってできています。 ヌクレオチドは リン酸 2、そして 4 種類の 塩基 のうちの 1 個から構成される物質です。(図2, 図3参照) 4 種類の塩基は次の通りです。

  • Adenine (アデニン)
  • サマータイヤ ホイールセット 7 X 100 RV504 HotStuff +50 ENASAVE カードでポイント最大34倍 P-01 5穴 17インチ ダンロップ 17 205/55R17 205/55R17 3/21(木)20:00~3/26(火)1:59迄 軽量設計!G.speed 4本 100 ミニバン DUNLOP エナセーブ

  • Thymine (チミン)
  • Guanine (グアニン)
  • Cytosine (シトシン)


(図2) リン酸 (phosphate) と糖 (sugar) そして 4 種類の塩基 (Base) Adenine, Thymine, Guanine, Cytosine のモデル図


(図3) ヌクレオチド (Nucleotide) のモデル図

ATGC の文字集合は、この 4 種類の塩基 Adenine, Thymine, Guanine そして Cytosine の頭文字に由来します。 また、ヌクレオチドが鎖のように繋がったものを 塩基配列 (sequence) といいます。 DNA は 2 本のヌクレオチドの鎖が 二重らせん構造 になるように、ヌクレオチドの塩基と塩基が組み合わさってできています。(図4参照)


(図4) ヌクレオチドの鎖が 2 本組み合わさってできた DNA のモデル図

ここで気になるのが、どうして二重らせん構造なのに DNA の塩基配列を 1 次元配列(または文字列)で表現できるのかということです。例えば 図4 では ACTGTGAC の 2 つの 1 次元配列を用意する必要があるのではないかと感じます。

この疑問に答えるのが 塩基対 (base pair, bp) です。A は T と、 G は C と必ず対になります。(図5参照) この組み合わせを塩基対といいます。


(図5) Adenine は Thymine と、 Guanine は Cytosine と塩基対を作る

DNA は二本の鎖が塩基対により 相補的 (complementary) に組み合わさってできています 3。 塩基対の関係を使えば、片方の塩基配列から対になるもう片方の塩基配列(これを 相補鎖 といいます)がわかります。例えば ACTG なら塩基対の関係から、もう片方の塩基配列は TGAC とわかります。(図6参照)


(図6) 塩基対の関係からもう片方の塩基配列を求められる

ここから DNA の塩基配列は ATGC からなる文字列(または 1 次元配列)で表現できることがわかります。

RNA

RNA (ribonucleic acid, リボ核酸) も DNA と同様に文字列で表現できます。 DNA と異なるところは、構成する塩基です 4。 RNA は次の 4 種類の塩基から構成されています。

  • Adenine (アデニン)
  • Uracil (ウラシル)
  • Guanine (グアニン)
  • Cytosine (シトシン)

また、RNA には二重らせん構造の RNA と、一本の鎖から成り立つ RNA の二種類があります5。 RNA の場合も DNA と同じように塩基対の関係があり、 A は U と、 G は C と結合します。 なので、一本鎖 RNA も二本鎖 RNA も AUGC の 4 種類の文字からなる文字列で表現できます。

実際の RNA ウイルスを文字列で表現した例を示します。 2016 年にノースカロライナで見つかった豚インフルエンザウイルスの RNA の一部です6 18インチ サマータイヤ セット【適応車種:エスクード(TD#4W)】HOT STUFF プレシャス アストM1 ブラック/リムポリッシュ 7.0Jx18グラントレック PT3 225/60R18。

ATGAAGGCAGCACTAGCAGTCCTGCTATATGCATTTACAACTGCAAATGCCGACACATTATGTATAGGCT

ここで U (Uracil) ではなく T で表記されていることに違和感を覚えるかもしれません。 RNA なので T ではなく U と表記してよいのですが、ここでは FASTA フォーマット7 の慣例に従い Uracil を T で表記しています。

タンパク質

DNA や RNA といった 核酸 と同じように タンパク質アミノ酸配列 も文字列で表現できます。 今回はアミノ酸配列についての説明を省略しますが、タンパク質は 20 種類のアミノ酸が 1 次元配列でつながったものです。 20種類のタンパク質はそれぞれ ACDEFGHIKLMNPQRSTVWY のアルファベット一文字で表記されます。 ちなみに、ここで使われていないアルファベットは BJOUXZ の 6 文字です。

文字列として見たときの DNA

DNA ウイルスだけでなく、地球上のどんな生物の DNA も ATGC からなる文字列として表現できます ニッサン キューブ Z12 17インチ アルミホイール 一台分(4本) LEONIS NAVIA 06 (レオニス ナヴィア ゼロシックス) マットブラックリムポリッシュ アルミ H&R スポーツスプリング 29440-1 オペル ザフィーラA XM 1998年~。 また、進化的に近い種は DNA の塩基配列も似ています。

DNA を文字列と見立てたとき、文字列同士の 類似度のようなもの を求めれば、進化的に近い種かどうかを調べることができます。 この類似度のようなものを計算機科学の世界では、 文字列の 編集距離 (edit distance) といいます 。 編集距離にはいくつか種類があり、例をあげると レーベンシュタイン距離 (Levenshtein distance)ハミング距離 (Hamming distance), Jaro-Winkler distance などがあります。 この中でよく使われるのはレーベンシュタイン距離です。

また多くの生物で共通する文字の並びがわかれば、生命にとって重要な塩基配列やアミノ酸配列がわかります。 この共通する文字の並びを 共通部分列 (common subsequence) と言います 8。 2 つの文字列間で共通する 部分列 (subsequence) の中で最長となるものを 最長共通部分列 (longest common subsequence, LCS) といい、計算機科学の世界では LCS を求める問題を LCS Problem といいます9

アラインメント

遺伝子工学の世界では、共通部分列を求めることを アラインメント (alignment) と言います。 アラインメントは、2 つの文字列を比較して共通する部分を揃えて、2 つの文字列間の共通点を可視化したものです。

例えば、アラインメント前の 2 つの文字列を x, y とします。

x = "AGCTCGAATATGC"
y = "ACTGAAGAGC"

x, y のアラインメント結果は次のようになります:

AGCTCGAAT-ATGC // x
A-CT-GAA-GA-GC // y

ここで揃えるために挿入した - (ハイフン) のことを ギャップ (gap) または ホール (hole) といいます。

マルチプルアラインメント

2 つ以上の文字列の共通点を可視化したものを マルチプルアライメント (multiple alignment) (または Multiple Sequence Alignment, MSA) といいます。

マルチプルアラインメントの入力例は次のように、複数の文字列になります。 ここでは文字列 x, y, z, w を入力としてマルチプルアライメントを求めてみます。

x = "AGCTCGAATATGC"
y = "ACTGAAGAGC"
z = "CGAAGAC"
w = "TCAATT"

これらの文字列のアラインメント結果は次のようになります。

AGCTCGAAT-ATGC // x
A-CT-GAA-GA-GC // y
--C--GAA-GA--C // z
---TC-AAT--T-- // w

このマルチプルアライメントの結果から何がわかるのでしょうか? 例えば、 x, y, z, w がそれぞれヒト、牛、魚、カブトムシの DNA だとします。 すると次のことが見えてきます。

  • ヒトと牛が(魚やカブトムシに比べて)近い種かも?
  • AA は地球上の生物にとって大事な塩基配列かも?

例では 4 つの文字列のみですが、このアラインメントの操作をたくさん集めた塩基配列のサンプルにたいして行って、インフルエンザウイルスの進化系統樹を作成したり、動物にとって重要な塩基配列やアミノ酸配列を見つけることができます。

文字列のアルゴリズムを使おう

昔はこれらの塩基配列のアラインメントを、生物学者みずから手作業で求めていたそうです。 インフルエンザウイルスの RNA 塩基配列は短いものでも 800 文字、長いと 2200 文字ほどになります10。 これを経験とセンスだけでアラインメントするのはとても大変です。 そこで DNA は文字列なので、今では計算機上でアラインメントを自動的に求められます。もちろん文字列なので文字列のアルゴリズムが使えます。

アラインメントを「文字列 x を文字列 y に変換する編集操作の手順」と見なせば、アラインメントを求める問題は 「M 個の文字列間の LCS を求める問題」または「Edit graph (エディットグラフ) を求める問題」に変換することができます。

ちなみに、以下の問題は Edit graph を求める問題に変換できます。

  • 編集距離を求める (Edit distance problem)
  • 最長共通部分列を求める (LCS problem)
  • 文字列の差分 diff を求める (文字列 x を文字列 y にする最小の編集操作の手順)

大雑把に言ってしまうと、 Edit graph さえ求めてしまえば、編集距離も LCS も diff もアラインメントも求まります。 これらの文字列アルゴリズムの問題例に DNA の塩基配列が使われるのはそういった背景があります。

機会があれば、次回は計算機科学の世界に戻って LCS の話をします。

参考文献

  • [Myers] Myers, E.W. "An O(ND) difference algorithm and its variations." Algorithmica Volume 1, Issue 1-4. (1986) 251-266.
  • [MR] Crochemore, Maxime and Wojciech Rytter. Text Algorithms. (ISBN-13: 978-0195086096)
  • [MHL] Crochemore, Maxime, Christophe Hancart and Thierry Lecroq. "Alighnment". Algorithms on Strings. (ISBN-13: 978-1107670990) Chapter 7.
  • 星田昌紀, 遺伝子情報処理への挑戦 - コンピュータとバイオのフュージョン (ISBN-13: 978-4320026933) (1994)
  • Molecular Biology of the Cell, 5th edition. - MBoC の最新版は第6版です。
  • https://www.ncbi.nlm.nih.gov/genome - NCBI のデータベース。 DNA と RNA の FASTA 表記の実例として引用しました。

  1. Variola virus の塩基配列の一部。NCBI Reference Sequence: NC_001611.1 から引用しました (https://www.ncbi.nlm.nih.gov/nuccore/9627521?report=fasta

  2. DNA を構成する糖はデオキシリボース (deoxyribose)、RNA を構成する糖はリボース (ribose) です。 

  3. DNA の二本の鎖にはそれぞれ名前がついていて、発見者名をとって片方を Watson strand (ワトソン鎖)、もう片方を Crick strand (クリック鎖) と呼びます。 

  4. 構成している糖も DNA と RNA で異なります。 

  5. 少し前まで RNA は一本鎖だと言われていましたが、1998 年に RNAi とともに 二本鎖 RNA が発見されました。そのため、それ以前の書籍を見ると RNA に関して「一本鎖」と記述されていることがあります。 

  6. Influenza A virus の塩基配列の一部。NCBI GenBank: KU598329.1 から引用しました (https://www.ncbi.nlm.nih.gov/nuccore/992420281?report=fasta

  7. FASTA フォーマットは広く使われている塩基配列やアミノ酸配列のデータ表現のひとつです。 FASTA フォーマットについてはこちらを参照ください: Formatting your Submission - The GenBank Submissions Handbook 

  8. ここでは、部分列 (subsequence) と部分文字列 (substring) を区別しています。 

  9. 実のところ LCS を求めることとレーベンシュタイン距離を求めることはまったく同じ問題です。 

  10. NCBI に登録されている Influenza A virus がそのくらいの長さ。長さの単位は bp (base pair) で、ATGC の 1 文字が 1 bp に相当します。

    カードでポイント最大34倍 3/21(木)20:00~3/26(火)1:59迄 DUNLOP ダンロップ エナセーブ RV504 ENASAVE ミニバン サマータイヤ 205/55R17 HotStuff 軽量設計!G.speed P-01 ホイールセット 4本 17インチ 17 X 7 +50 5穴 100

    。 

Leave a Reply

{yahoojp}jpprem01-zenjp40-wl-zd-35483