Nghịch lý giá trị C
Great chain of being - Chuỗi tồn tại vĩ đại là một cấu trúc có thứ bậc của mọi vật chất và sự sống. Trong chuỗi sự tồn tại, Thượng đế đứng đầu và có chín cấp độ của thiên thần, dưới các thiên thần là con người và dưới họ là động vật, thực vật và khoáng chất. Do đó, vị trí trong chuỗi càng cao thì càng có nhiều thuộc tính, bao gồm tất cả các thuộc tính của những thứ có vị trí thấp hơn.
Chuỗi tồn tại phân loại tất cả mọi thứ. Năm mươi năm trước, người ta cho rằng số lượng DNA trong bộ gen cũng có khả năng xếp hạng các sinh vật từ trên xuống dưới như cách mà chuỗi tồn tại phân loại mọi thứ.
Ý tưởng là loài càng phức tạp thì càng cần nhiều gen. Tức là, số lượng gen trong bộ gen nên được sắp xếp từ ít đến nhiều như nấm men, giun tròn, ruồi, và người. Dữ liệu thu được thông qua công nghệ giải trình tự thời đó dường như đã xác nhận ban đầu ý tưởng này.
Nhưng dần dần, mọi người nhận thấy luồng suy nghĩ này không đúng lắm.
Khi ngày càng có nhiều kết quả giải trình tự cũng như sự tách rời hoàn toàn của hàm lượng DNA và độ phức tạp của sinh vật đã được chứng minh nhiều lần: Giá trị C (diễn tả kích thước bộ gen của một loài) giữa các loài là rất khác nhau. Khoảng giá trị C của các loài khác nhau không phải là một mối quan hệ gia tăng đơn giản và có sự khác biệt rất lớn trong mỗi loài.
Ở động vật, chúng khác nhau hơn 3.300 lần. Ở cây trồng trên cạn, chúng khác nhau khoảng 1000. Dữ liệu cho thấy phạm vi kích thước DNA của nhiều quần thể có thể thay đổi theo một số bậc của độ lớn. Mức độ phức tạp từ tảo đến động vật có vú không tương quan thuận với kích thước bộ gen.
Năm 1971, CA Thomas mô tả vấn đề hóc búa này là nghịch lý giá trị C, thường được mô tả từ ba quan điểm khác nhau sau:
(1) Một số sinh vật đơn giản có nhiều ADN hơn những sinh vật phức tạp. Một số sinh vật tương đối nguyên thủy, chẳng hạn như động vật chân bụng, có giá trị C cao hơn động vật có vú. Một con amip có số lượng DNA trên mỗi tế bào nhiều hơn 200 lần so với con người. Động vật lưỡng cư, một số loài có bộ gen lớn gấp 25 lần bộ gen của con người.
(2) Bộ gen của bất kỳ sinh vật nhất định nào dường như chứa nhiều hơn số lượng gen dự đoán của nó, tức là bộ gen có thể chứa một số lượng lớn các đoạn DNA ngoài các gen và trình tự điều hòa của chúng.
(3) Một số nhóm giống nhau về hình thái thể hiện hàm lượng ADN có tính chất phân hóa cao. Điều này đặc biệt phổ biến ở thực vật, chẳng hạn như lúa (Oryza), lúa miến hoặc hành tây (Allium), chúng khác nhau về kích thước bộ gen đơn bội theo hệ số từ 3 đến 8 lần. Không giống như các gen và trình tự quy định mà chúng ta mong đợi thường tiến hóa chậm và được bảo tồn, vì một số lý do mà kích thước của bộ gen có thể thay đổi nhanh chóng theo khoảng thời gian tiến hóa, như trong trường hợp của bộ gen của ngô (Zea mays) trong khoảng thời gian 140.000 năm, nó đã mở rộng khoảng 50%.
Vài năm sau khi thuật ngữ C-value được đặt ra, việc phát hiện ra một lượng lớn DNA không mã hóa đã giải thích cho vấn đề thứ hai. Những gen không mã hóa này trong những ngày đầu tiên được gọi là DNA rác vì lúc đó người ta cho rằng nó không có tác dụng gì cả. Trong những năm gần đây, người ta đã phát hiện ra rằng DNA không mã hóa có những chức năng quan trọng. Tuy nhiên, sẽ có một bài viết riêng tập trung vào chủ đề này.
Các gen không mã hóa có thể giải thích vấn đề thứ hai, nhưng điều này lại tạo ra những vấn đề mới. Gen mã hóa và gen không mã hóa cái nào đóng góp nhiều hơn vào sự phức tạp sinh học? Các gen mã hóa có tương quan với độ phức tạp sinh học sau khi loại bỏ các gen mã hóa dường như không có chức năng không?
Nghịch lý giá trị G
Dự án Bộ gen người (HGP) chính thức được khởi động vào năm 1990. Mục tiêu ban đầu của HGP không chỉ là phát hiện tất cả 3 tỷ cặp gen cơ bản của người với tỷ lệ sai sót nhỏ nhất, mà còn xác nhận từ một lượng lớn dữ liệu được liệt kê - tất cả các gen và trình tự của chúng.
Ngày nay, trình tự DNA của con người được lưu trữ trong cơ sở dữ liệu mà bất kỳ ai cũng có thể tải xuống thông qua Internet.
Các đoạn ADN mang thông tin di truyền được gọi là gen và là các đoạn ADN có thể mã hóa, chúng có thể mã hóa ARN hoặc protein. Vào mùa xuân năm 2000, các nhà sinh học phân tử bắt đầu đặt cược, cố gắng dự đoán số lượng gen có thể được tìm thấy sau khi trình tự nucleotide DNA trong bộ gen người được hoàn thành.
Vào ngày 14 tháng 4 năm 2003, Viện Nghiên cứu Bộ gen Người Quốc gia (NHGRI), Bộ Năng lượng Hoa Kỳ (DOE), và các đối tác của họ trong Hiệp hội Giải trình tự Bộ gen Người Quốc tế đã thông báo về việc hoàn thành thành công Dự án Bộ gen Người. Sử dụng dữ liệu từ HGP, các nhà khoa học ước tính rằng bộ gen người chứa 20.000 đến 25.000 gen.
Số lượng gen trong bộ gen nên tương quan với độ phức tạp, mong muốn rằng sự phức tạp của các sinh vật có thể được sắp xếp như nấm men, giun tròn, ruồi, con người bị hỏng, đây là phiên bản nâng cấp của nghịch lý giá trị C, và được gọi là Nghịch lý giá trị G
Giả định và thuyết sô-vanh hàm ý trong câu hỏi này, rằng con người phức tạp hơn nhiều so với các sinh vật nhân chuẩn được giải trình tự đầy đủ khác và do đó phải có một bộ gen lớn hơn tương ứng, khó có thể biện minh từ kết quả giải trình tự. Điều thú vị là những người mong muốn có nhiều gen hơn đã không từ bỏ cuộc chiến. Họ tiếp tục xuất bản những câu chuyện hợp lý hóa, cố gắng chứng minh rằng có điều gì đó không ổn.
Tại thời điểm này, đó là một giải pháp tốt để phát minh ra một khái niệm mới, một thước đo thực sự có thể xác định thông tin được mã hóa bởi hệ gen, và giá trị I ra đời. Có nhiều lý thuyết để chứng minh rằng giá trị số G của gen không chứa ít thông tin hơn , chẳng hạn như:
1. Sự kết hợp giữa các gen:
Khi số lượng gen trong một sinh vật tăng lên, sự kết hợp của các protein mã hóa có thể hoạt động với nhau để thực hiện các chức năng phức tạp sẽ tăng nhanh hơn. Điều này đúng đối với mạng lưới protein truyền tín hiệu và trao đổi chất. Chỉ cần thêm 100 gen vào bộ gen của chúng ta sẽ tạo ra thêm 3,1 triệu tổ hợp theo cặp.
2. Các chức năng khác trên mỗi gen:
Dường như chúng ta mã hóa tỷ lệ protein đa chức năng trong bộ gen của chúng ta cao hơn ở ruồi và giun; nghĩa là, trung bình mỗi protein trong cơ thể chúng ta có nhiều cấu hình sinh hóa độc đáo hơn C. elegans và C. elegans Chức năng. Đây được mô tả như một con dao quân đội Thụy Sĩ.
3. Nối ghép thay thế: từ genome sang transcriptome
Theo các ước tính tốt nhất hiện có, 59% gen được ghép xen kẽ trong quá trình phiên mã. Nếu chỉ xem xét các biến thể liên kết ảnh hưởng đến vùng mã hóa protein, chúng ta nhận được khoảng 69.000 trình tự protein khác nhau được mã hóa bởi bộ gen của chúng ta. Đây là sự gia tăng số lượng gen hơn 300%. Ngược lại, bộ gen giun chứa một tỷ lệ nhỏ hơn các gen nối xen kẽ, tạo ra tới 25.000 protein.
4. Các biến đổi sau dịch mã: từ transcriptome thành proteome
Sau dịch mã, nhiều lần sửa đổi có thể làm tăng thêm số lượng các protein khác biệt về chức năng được mã hóa bởi một gen duy nhất. Các biến đổi phổ biến bao gồm glycosyl hóa, phân giải protein và phosphoryl hóa. So sánh proteome của người (tổng số protein trong một tế bào) với transcriptome (tổng số các bản sao trong một tế bào), chúng ta có thể ước tính mức độ phổ biến của cơ chế này trong bộ gen của chúng ta.
5. Dư thừa di truyền: lạm phát giá trị G
40% đầy đủ các vị trí trong bộ gen của tuyến trùng là kết quả của sự nhân đôi song song, đó có thể là lý do tại sao nó có giá trị G lớn hơn nhiều so với ruồi giấm. Ở chuột, việc loại bỏ một gen nhân đôi thường không hiệu quả, cho thấy rằng có sự dư thừa thông tin đáng kể giữa các locus được nhân đôi trong hệ gen của động vật có vú, dẫn đến giá trị G tăng lên, nhưng chứa cùng một lượng thông tin.
Những lời giải thích này có thể giải quyết kịp thời nghịch lý giá trị G, tất cả đều cố gắng cung cấp cho chúng ta thêm thông tin về từng gen và chúng ta có thể đánh giá thấp thông tin được mã hóa bởi gen nếu chỉ bằng các con số.
Mặt khác, sự tiến hóa không phải là một mô hình của hiệu quả, và nó đã đi một con đường quanh co dẫn đến các bộ gen cồng kềnh hơn mức mà bản thân sinh vật cần. Nó giống như cỗ máy Rube Goldberg: Có thể có một cách đơn giản để mã hóa cơ thể và hành vi của chúng ta hơn những gì thực sự tồn tại trong bộ gen của chúng ta. Việc đếm số lượng gen có thể đánh giá quá cao thông tin được mã hóa bởi các gen đó.
Sự phức tạp của hướng dẫn (gen) và sự phức tạp của sản phẩm (sinh vật) đơn giản là quá phức tạp để hiểu được nguyên nhân và mối tương quan của sự đa dạng bộ gen của một sinh vật, và nó là không đủ để bắt đầu với con người.
Dự án Bộ gen sinh học của Trái Đất (EBP) là một chương trình kéo dài 10 năm nhằm giải trình tự và lập danh mục bộ gen của tất cả các loài sinh vật nhân chuẩn hiện được mô tả trên Trái Đất. Kế hoạch sẽ thiết lập một cơ sở dữ liệu DNA thông tin sinh học mở, và dự án chính thức được khởi động vào ngày 1 tháng 11 năm 2018.
Lần đầu tiên, có thể giải trình tự một cách hiệu quả bộ gen của tất cả các loài đã biết và sử dụng hệ gen để giúp khám phá 80% đến 90% các loài còn lại hiện chưa được khám phá bởi cộng đồng khoa học.
Tham khảo: Earthlymission; Nature; NASA; Rarehistoricalphotos