PatentDe  


Dokumentenidentifikation DE60127813T2 27.12.2007
EP-Veröffentlichungsnummer 0001254373
Titel VERFAHREN ZUR IDENTIFIZIERUNG UND/ODER CHARAKTERISIERUNG EINES (POLY)PEPTIDES
Anmelder Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V., 12205 Berlin, DE
Erfinder CAHILL, Dolores J., DUBLIN 4, IE;
NORDHOFF, Eckhard, 10829 Berlin, DE;
KLOSE, Joachim Charite, 13353 Berlin, DE;
EICKHOFF, Holger, 28857 Syke, DE;
SCHMIDT, Frank, 10119 Berlin, DE;
LEHRACH, Hans, 14129 Berlin, DE
Vertreter Simandi, C., Dipl.-Chem., Pat.-Anw., 53773 Hennef
DE-Aktenzeichen 60127813
Vertragsstaaten AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LI, LU, MC, NL, PT, SE, TR
Sprache des Dokument EN
EP-Anmeldetag 07.02.2001
EP-Aktenzeichen 019075084
WO-Anmeldetag 07.02.2001
PCT-Aktenzeichen PCT/EP01/01332
WO-Veröffentlichungsnummer 2001057519
WO-Veröffentlichungsdatum 09.08.2001
EP-Offenlegungsdatum 06.11.2002
EP date of grant 11.04.2007
Veröffentlichungstag im Patentblatt 27.12.2007
IPC-Hauptklasse G01N 33/68(2006.01)A, F, I, 20051017, B, H, EP

Beschreibung[de]

Die Erfindung betrifft ein Verfahren zum Identifizieren und/oder Charakterisieren eines (Poly)peptids umfassend: (a) Analysieren eines Peptidmaps des genannten (Poly)peptids, wobei der Peptidmap mindestens 1 Peptid enthält, und seine Peptid primäre Fingerprintstruktur durch Massenspektrometrie; und (b) Vergleichen der erhaltenen Daten aus Schritt (a) mit einer Referenz-(Poly)peptid-Datenbank, besagte Datenbank enthält massenspektrometrische Daten von Peptidmaps, wobei ein Peptidmap mindestens 1 Peptid enthält und Peptid primäre Fingerprintstrukturdaten von dem/den Peptid(en) aus der Peptidmap, eines (Poly)peptids oder einer Vielzahl von (Poly)peptiden.

Mit dem humanen Genomprojekt laufend auf dem guten Weg zu seiner nähernden Vollendung, sind die Probleme des Verstehens der Funktion neuer entdeckten Gene adressiert. Anfängliche Versuche der Sequenzierung des großen und komplexen humanen Genoms wurden absichtlich fokussiert auf die exprimierten Regionen, wie sie durch cDNA Banken repräsentiert werden. Schätzungen der gesamten Genzahlen variieren von 60.000 bis über 140.000 (Nature, 401:311 news section 1999) im Humangenom. Während die Mehrheit der Gesamtzahl an Humangenen nunmehr als „expressed sequence tags" (ESTs) in dbEST Datenbanken repräsentiert ist, ist jedoch nur einer winzigen Minderheit eine Funktion zugeordnet.

Zum Beispiel ist in der Ausgabe des 22. Oktober 1999 die Zahl der Einträge für den Menschen 1.617.045 (http://www.ncbi.nim.nih.gov/dbEST/index.html) (Wolfsberg und Landsman, 1997), korrespondierend zu 85.713 Cluster in der UniGene set (www.ncbi.nlm.gov/UninGene/Hs.stats.shtml) von denen nur 9.274 bekannte Gene aufweisen. Die meist voranbringende Lösung zu dieser Struktur-Funktion Diskrepanz scheint die direkte Korrelation zwischen dem funktionellen Status eines Gewebes und der Expression bestimmter Gensets zu sein.

Jedoch, obwohl die primären Aminosäuresequenzen von Proteinen durch die Gene kodiert sind, ist die Beziehung zwischen Genen und Proteinen hochgradig nicht linear. Die Kontroll- und Signalwege zur Ausübung der Zellfunktionen sind robust und ungeregelt. Zelluläre Aktivität wird umgesetzt durch eine riesige Anordnung von Signal-, Regel-, und Stoffwechselwegen, jede verkörpert die funktionelle und strukturelle Beziehung von vielen spezifischen Molekülen. Dies macht es schwierig die Protein-Dynamik oder Struktur mittels Genetik vorherzusagen. Ebenfalls sind die Gen-Protein Dynamiken nicht linear, da es keine zuverlässige Korrelation zwischen Genaktivität und Protein Abundanz (Anderson und Seilhammer, 1997) gibt. Die Existenz von alternativen Splicevarianten der mRNA verkompliziert strukturell die Beziehung zwischen Genen und Protein. Viele Proteine erhalten postranslationale Modifikationen, die entscheidend für ihre Funktion sind, jedoch nicht in der für das Protein korrespondierenden DNA kodiert sind. Darüber hinaus kann ein Protein in unterschiedlichen Wegen und unter verschiedenen Bedingungen prozessiert werden, dies scheint von entscheidender Bedeutung zu sein, zum Beispiel für die Alzheimer-Krankheit (Masters und Beyreuther, 1998). Ein anderes Beispiel kann aus den Erfahrungen mit den „cystic fibrosis transmembrane receptor" (CTFR) Funktionen, die in zystischer Fibrose involviert sind, aufgefunden werden. Diese Krankheit ist durch eine Mutation in einem Einzelgen verursacht, jedoch mit einer komplexen Pathogenese, wobei CTFR als ein Chlorid-Kanal fungiert, aber zusätzlich mögliche pathologische Funktionen in der Regulation der äußeren Membranströme aufweist. Zusätzlich ist die CFTR Expression hoch variabel innerhalb der Lungen abhängig vom Zelltyp und anatomischen Ort. Solche komplexe Funktionen eines Einzelgendefekts verkomplizieren die Bestimmung von CFTR in zystischer Fibrose und der Identifikation eines geeigneten zellulären Targets zur Therapie (Jiang und Engelhardt, 1998). Die überwiegende Mehrheit menschlicher Krankheiten ist enorm komplexer als CFTR unter Beteiligung einer großen Anzahl von Genen und Umweltfaktoren.

Nishizawa (Nishizawa Yuji et al., Initiating ocular proteomics for cataloging bovine retinal proteins: Microanalytical techniques permit the identification of proteins derived from a novel photoreceptor preparation), EXPERIMENTAL EYE RESEARCH, vol. 69, n° 2, August 1999 (1999-08), Seiten 195 bis 212)) beschreibt die Isolierung von Protein aus Photorezeptor-Zellschichten und anderen Komponenten aus der Retina und der nachfolgenden Auftrennung durch zwei-dimensionale Gelelektrophorese und ihre Sequenzierung.

Quadroni (Quadroni Manfredo et al., Proteome mapping, mass spectrometric sequencing and reverse transcription-PCR for characterization of the sulfate starvation-induced response in Pseudomonas aeruginosa PA01)., EUROPEAN JOURNAL OF BIOCHEMISTRY, vol. 266, n°. 3, Dezember 1999 (1999-12), Seiten 986 bis 996) offenbart die Identifikation von Proteinen mittels zwei-dimensionaler Gelchromatographie und nachfolgend analysiert durch N-terminalen Edman Sequenzierung und MS Sequenzierung von innerlichen Proteinfragmenten. Wie auch immer, beide Dokumente beziehen sich auf theoretische Proteindaten unter Auslassung von experimentell bestimmten massenspektrometrischen Daten.

Daher erfordert ein volles Verständnis des Expressionsprofils eines Gewebes oder Organismus auf den genomischen oder proteomischen Ebenen das so schnell wie mögliche Screening von vielen parallelen Proben.

Dementsprechend war das technische Problem, dass der vorliegenden Erfindung unterliegt, ein Verfahren zum Identifizieren und/oder Charakterisieren von Proteinen im großen Maßstab, kurzer Zeit und im Hochdurchsatz bei niedrigen Kosten bereit zu stellen.

Die Lösung des technischen Problems wird erreicht durch die Bereitstellung von Ausführungsformen wie in den Ansprüchen gekennzeichnet.

Dementsprechend betrifft die vorliegende Erfindung ein Verfahren zum Identifizieren und/oder Charakterisieren eines (Poly)peptids umfassend:

  • (a) Analysieren eines Peptidmaps des genannten (Poly)peptids, wobei der Peptidmap mindestens 1 Peptid enthält, und seine Peptid primäre Fingerprintstruktur durch Massenspektrometrie; und
  • (b) Vergleichen der erhaltenen Daten aus Schritt (a) mit einer Referenz(Poly)peptid-Datenbank, besagte Datenbank enthält massenspektrometrische Daten von Peptidmaps, wobei ein Peptidmap mindestens 1 Peptid enthält und Peptid primäre Fingerprintstrukturdaten von dem/den Peptid(en) aus der Peptidmap, eines (Poly)peptids oder einer Vielzahl von (Poly)peptiden.

Der Begriff "(Poly)Peptid" gemäß der vorliegenden Erfindung verwendet bezieht sich gleichermaßen auf Peptide und (Poly)peptide, natürlich erhalten oder rekombinant, chemisch oder durch andere Mittel hergestellt oder modifiziert, wobei die dreidimensionale Struktur der Proteine unterstellt werden kann, das post-translational prozessiert sein kann, optional im Wesentlichen in gleicher Weise wie native Proteine. Darüber hinaus umfasst dieser Begriff (Poly)peptide oder Proteine mit einer Länge von ungefähr 50 bis zu mehreren Hunderten von Aminosäuren sowie Peptide mit einer Länge von ungefähr 1, 2, 3, 4 und vorzugsweise 5 bis 50 Aminosäuren. In einer weiteren bevorzugten Ausführungsform hat das besagte Peptid eine Länge von 6 Aminosäuren. Die besagten (Poly)peptide und entsprechend ihre Maps in anderen Ausführungsformen enthalten 2, 3, 4, 5, 6 bis zu 10, oder mehr Peptide.

Der Begriff "Peptidmap (Peptidkarte)" gemäß der vorliegenden Erfindung verwendet bezeichnet einen Satz von Peptiden, die durch Fragmentierung aus einem gegebenen (Poly)peptid erhalten werden und daher spezifisch für das besagte (Poly)peptid ist. Die Fragmentierung kann erfolgen, z.B. durch enzymatische Spaltung des (Poly)Peptids, z. B. mit Trypsin entsprechend konventioneller Techniken. In spezifischen Ausführungsformen sind nur Daten von einem Peptid aus einem (Poly)peptid in der besagten Datenbank enthalten. In weiteren Ausführungsformen enthält die Datenbank Daten aus einer Vielzahl von Peptiden, wobei jedes Peptid aus einem verschiedenen (Poly)peptid stammt. Es ist jedoch bevorzugt, dass die besagte Datenbank massenspektrometrische Daten von Peptidmaps von mehr als einem Peptid enthält, wie 2, 3, 4, 5, 6, 7, 8, 9, 10 oder mehr Peptide aus einer Vielzahl von Peptiden (siehe 1).

Der Begriff " Peptid primäre Fingerprintstrukturdaten" gemäß der vorliegenden Erfindung verwendet bezeichnet das Peptid Fragmentierungsmuster wie durch die Massenspektrometrie erzeugt.

Eine "Vielzahl" von (Poly)peptiden bezeichnet eine Anzahl von mindestens 2 oder 3, vorzugsweise von mindestens 5 bis 50, bevorzugt von mindestens 50 bis 1.000, jedoch meist bevorzugt von mindestens 1.000 bis 10.000, und am meisten bevorzugt mehr als 10.000 (Poly)peptide. Das Verfahren der vorliegenden Erfindung kombiniert vorteilhaft erhaltene Daten aus massenspektrometrischer Analyse eines Peptidmaps, enthaltend mindestens 1 Peptid, und seine Peptid primäre Fingerprintstruktur, wobei "Peptid primäre Fingerprintstruktur", gemäß der vorliegenden Erfindung verwendet, das Peptidfragmentierungsmuster durch Massenspektrometrie erzeugt bezeichnet. Verglichen mit Protein-Identifikation durch massenspektrometrische Peptidmaps verbessern Peptidmaps unter Einbeziehung von Peptid primäre Fingerprintstrukturen der Peptide aus dem Peptidmap deutlich die Protein-Identifikation in Sequenzdatenbanken und erlauben die eindeutige Identifikation von (Poly)peptiden (siehe 2). Peptid primäre Fingerprintstrukturen können durch Massenspektrometrie-post source decay (MS-PSD) oder „Kollision induzierten Zerfall" oder „Laser induzierten Zerfall" erzeugt werden, wohlbekannt in der Technik. Diese Technik basiert auf einer weiteren Fragmentierung der Peptide und massenspektrometrischer Analyse der Peptidfragmente, die der massenspektrometrischen Analyse der Peptide nachfolgt. Vorzugsweise werden mindestens 2 bis 5 Peptid primäre Fingerprintstrukturen von einem (Poly)peptid durch Massenspektrometrie analysiert, bevorzugt mindestens 6 bis 8, und meist bevorzugt mindestens 10 Peptid primäre Fingerprintstrukturen. Massenspektrometrische Analyse von Peptiden ist wohlbekannt in der Technik und kann gemäß konventionellen Techniken durchgeführt werden. Zum Beispiel können Peptide mittels Matrix-gestützter Laserdesorption Ionisation Massenspektrometrie (MALDI MS) oder durch Elektrospray-MS analysiert werden, wie für Human-GAPDH aus einem 2D Gel (natives Human-GAPDH) und aus GAPDH exprimiert durch E. coli (rekombinantes Human-GAPDH) durchgeführt wurde (siehe 3). Der Satz an erhaltener struktureller Information für jedes (Poly)peptid durch das Verfahren der vorliegenden Erfindung, im Folgenden auch bezeichnet als "minimaler Protein Identifizierer" (MPI) (siehe 1), beinhaltet die exakten molekularen Massen der enzymatischen Spaltprodukte in Verbindung mit Fragmentiondaten. Falls MPIs von zwei verschiedenen (Poly)peptiden verglichen werden, führt dies vorteilhaft zu einer verlässlicheren Protein-Identifikation, da gemessene MPIs jeweils einander verglichen werden anstelle von DNA und/oder Aminosäuresequenzprognostizierten strukturellen Merkmalen (solche wie identifizierte Spots aus 2D Gelen, wie in 2 dargestellt).

Überdies können die MPIs elektronisch gespeichert werden und erlauben dann den Computerbasierten Vergleich von verschiedenen MPIs. Dies verbessert weiterhin Geschwindigkeit und Exaktheit, reduziert Kosten, und erlaubt folglich die Hochdurchsatz-Identifikation und/oder Charakterisierung von (Poly)peptiden (siehe 4).

Ein weiterer Vorteil des Verfahrens der vorliegenden Erfindung ist, dass es die Identifikation und/oder Charakterisierung von einem (Poly)peptid ohne Kenntnis seiner Aminosäuresequenz und/oder weiterer struktureller Merkmale erlaubt (solche wie identifizierte Spots aus 2D Gelen, wie in 5 dargestellt).

Es ist gemäß der vorliegenden Erfindung vorgesehen, dass die Identifizierung und/oder Charakterisierung eines (Poly)peptids nicht notwendigerweise alle erhaltenen Daten in Schritt (a) mit der Referenz(Poly)peptid-Datenbank verglichen werden. Demgemäß kann zur eindeutigen Identifikation und/oder Charakterisierung ein Vergleich der erhaltenen Daten durch die Analyse des Peptidmaps und/oder einer Peptid primären Fingerprintstruktur mit der Referenz (Poly)peptid-Datenbank ausreichend sein. Anderenfalls kann der Vergleich der erhaltenen Daten durch die Analysen des Peptidmaps und z. B. in einer meist bevorzugten Ausführungsform mindestens 6-8, vorzugsweise 10 oder mehr Peptid primäre Fingerprintstrukturen mit der Referenz(Poly)peptid-Datenbank zu der Feststellung führen, dass keine identischen massensprektrometrischen Daten in der Referenz(Poly)peptid-Datenbank vorliegen. Dies würde das analysierte (Poly)peptid als einen neuen Eintrag in der Datenbank identifizieren. Entsprechend ist eine solche Situation ebenfalls durch den Begriff „Identifizieren", gemäß der vorliegenden Erfindung verwendet, umfasst (siehe 1).

In einer bevorzugten Ausführungsform der vorliegenden Erfindung werden die erhaltenen Daten in Schritt (a) auf Ziffer-Listen erfasst, entsprechend den gemessenen Molekular- oder Fragmention-Massen oder Masse/Ladung (m/z) Verhältnissen (siehe 6 und 7).

In einer weiteren bevorzugten Ausführungsform wird die besagte Referenz (Poly)peptid-Datenbank in Schritt (b) hergestellt durch die Schritte:

  • (ba) Präparieren einer (Poly)peptid-Probe charakteristisch für eine Spezies, ein Gewebe, ein Entwicklungsstadium, ein spezifisches Alter, ein spezifischer Zeitpunkt einer Zelle, eine Organelle, ein Geschlecht, ein Krankheitsstadium, ein Mikroorganismus, eine Gewebekultur einer Zelllinie, ein Virus, ein Bakteriophage, ein Organismus, eine Pflanze, ein Antikörper, eine Antikörperbibliothek, ein Proteinkomplex oder interagierende Proteine;
  • (bb) Unterwerfen besagter (Poly)peptid-Probe einer ein- oder zweidimensionalen Gelelektrophorese,
  • (bc) Ausschneiden der (Poly)peptide aus dem Gel,
  • (bd) Fragmentieren besagter (Poly)peptide,
  • (be) Analysieren der erhaltenen Fragmente aus Schritt (bd) durch Massenspektrometerie; und
  • (bf) Speichern der erhaltenen Daten aus Schritt (be) in Kombination mit der Quelle der entsprechenden (Poly)peptide in einer Datenbank (zum Beispiel aus einem Spot in einem 2D Gel, wie in 5, MPI hergestellt wie in 1).

Vorzugsweise ist der oben genannte Organismus ein Tier, bevorzugt ein Säugetier und meist bevorzugt ein Mensch.

Der Begriff "spezifischer Zeitpunkt" bezieht sich auf Zeitpunkte nachdem ein Gewebe, eine Zelle, ein nicht-humaner Organismus, einschließlich einer Pflanze, Mikroorganismus, etc., eine Organelle, eine Gewebekultur einer Zelllinie, ein Proteinkomplex oder interagierende Proteine, ein Antikörper, eine Antikörperbibliothek, ein Bakteriophage, ein Virus etc. (aus einem spezifischen Entwicklungsstadium, Krankheitsstadium, Geschlecht, Alter etc.) mit einem Ligand, Arzneimittel, Stoff etc., solche wie oben beschrieben, kontaktiert, inkubiert oder behandelt wurde. Vorzugsweise wird das besagte Gewebe etc. mit einer zweiten Probe des besagten Gewebe etc. – nicht so kontaktiert oder behandelt – verglichen.

Diese Ausführungsform der vorliegenden Erfindung erlaubt nicht nur vorteilhaft die gleichzeitige Identifikation und/oder Charakterisierung einer großen Zahl verschiedener (Poly)peptide aufgrund der hohen Auflösung der verwendeten zwei-dimensionalen Gelelektrophorese (2-DE) sondern auch die Zuordnung von funktionalen Parametern zu dem analysierten (Poly)peptid. Entsprechend ist es gemäß der vorliegenden Erfindung vorgesehen, dass erhaltene 2-DE Muster aus, z. B. verschiedenen Spezies (Gattungen), Geweben, Entwicklungsstadien, Zellen oder Organellen, Geschlechter und Krankheitssstadien im Hinblick auf die Anwesenheit/Abwesenheit von Protein-Spots auf den verschiedenen 2-DE Muster und im Hinblick auf verschiedene quantitativen Grad eines (Poly)peptids verglichen und abgezogen werden.

Die Auswertung von 2-DE Mustern kann mittels Laserscannen gefolgt von Software assistierter Spot-Erkennung und Charakterisierung durchgeführt werden. Für die Anwesenheits-/Abwesenheitsanalyse von Proteinmustern können hochsensitive silbertärbende Verfahren verwendet werden. Für Zwecke der Quantifizierung können Commassie Blau oder Fluoreszenzfärbungen, wohlbekannt in der Technik, verwendet werden. Diese Ausführungsform der vorliegenden Erfindung erlaubt zudem den Nachweis von post-translationalen Modifikationen, und der Fachmann ist wohlunterrichtet, z. B. in Glycostaining- oder Phosphostaining-Verfahren.

Daher erlaubt das Verfahren der vorliegenden Erfindung das Identifizieren und/oder Charakterisieren eines (Poly)peptids, falls das korrespondierende MPI einem vorliegenden MPI in der Datenbank entspricht und, z. B. weitere Information im Hinblick auf die Quelle des korrespondierenden (Poly)peptids enthält (siehe 4). Zusätzlich können aufgrund der MPIs sowohl bekannte als auch unbekannte individuelle (Poly)peptide in einer bestimmten Population von (Poly)peptiden charakterisiert und des Weiteren eindeutig identifiziert werden, innerhalb und kreuzweise in zwei oder mehr Populationen von (Poly)peptiden (siehe 4). Mit anderen Worten, einmal erfasst und gespeichert, erlauben MPIs die Verfolgung von Genprodukten, z. B. in zwei-dimensional gelaufenen Gelen mit verschiedenen biologischen Proben durch einfachen Vergleich der neuen und vorher gemessenen MPIs (siehe 6). Dies erlaubt die Festlegung weiterer Information hinsichtlich, z. B. Veränderungen des quantitativen Grad oder post-translationalen Modifikationen der korrespondierenden (Poly)peptide, die mit der Expression der besagten (Poly)peptiden korrelieren, z. B. einer bestimmten Spezies, Gewebe, Entwicklungsstadium, Zelle, Organelle, Geschlecht oder Krankheitssstadium. Ein weiterer Vorteil des Verfahrens der vorliegenden Erfindung ist, dass aufgrund der MPIs ein zwei-dimensionaler (2-D) Referenzstandardmuster bereitgestellt werden kann, dass den einfachen und schnellen Vergleich der 2-D Gele aus verschiedenen Laboratorien, unterschiedlicher Gelformate, unabhängig von der Gelauflösung und/oder angewendeter Auftrennungstechnik, von verschiedenen Patienten, Geweben, etc. (siehe oben) erlaubt. Da ein 2-D Referenzstandardmuster durch massenspektrometrische Analyse einer repräsentativen Anzahl von Spots etabliert wurde, vorzugsweise mindestens 100 Spots, bevorzugt mindestens 5.000 Spots, meist bevorzugt alle erkennbaren Spots auf den Gel, und Speicherung der entsprechenden MPIs in einer Datenbank in Verbindung mit ihren Koordinaten des Molekularen Gewichts und pH im Spotmuster, erlaubt die Analyse von nur ein kleiner Anzahl von Referenzspots (z. B. 20 Spots) von z. B. zwei Gelen, die zu vergleichen sind und Zuordnung der korrespondierenden Spots auf dem Referenzstandardmuster eine Standardisierung und daher ein Vergleich der beiden Gele. Dies verbessert deutlich die Geschwindigkeit der Identifikation und/oder Charakterisierung von vielfachen Proteinspots durch Vergleich von zwei verschiedenen 2-D Gelen (siehe 1 und das Flussdiagamm des Verfahrens (9)).

Die Vorteile dieses Verfahrens sind, dass der MPI verwendet werden kann um zwei verschiedene 2D Gele zu vergleichen, als auch die Spots, welche unterschiedlich in verschiedenen 2D Gelen vorhanden sind (siehe 1, 2 und 4).

In einer zusätzlich bevorzugten Ausführungsform des Verfahrens der vorliegenden Erfindung wird die besagte Referenz-(Poly)peptid-Datenbank in Schritt (b) hergestellt durch die Schritte:

  • (ba) Präparieren einer (Poly)peptid-Probe charakteristisch für eine Spezies, ein Gewebe, ein Entwicklungsstadium, ein spezifisches Alter, ein spezifischer Zeitpunkt einer Zelle, eine Organelle, ein Geschlecht, ein Krankheitsstadium, ein Mikroorganismus, eine Gewebekultur einer Zelllinie, ein Virus, ein Bakteriophage, ein Organismus, eine Pflanze, ein Antikörper, eine Antikörperbibliothek, ein Proteinkomplex oder interagierende Proteine;
  • (bb) Unterwerfen besagter (Poly)peptid-Probe einer ein- oder multidimensionalen chromatographischen Trennung,
  • (bc) Fragmentieren der besagten getrennten (Poly)peptide,
  • (bd) Analysieren der erhaltenen Fragmente aus Schritt (bc) durch Massenspektrometerie; und
  • (be) Speichern der erhaltenen Daten aus Schritt (be) in Kombination mit der Quelle der entsprechenden (Poly)peptide in einer Datenbank.

In einer weiteren bevorzugten Ausführungsform des Verfahrens der vorliegenden Erfindung wird die besagte Referenz-(Poly)peptid-Datenbank in Schritt (b) hergestellt durch die Schritte:

  • (ba) Präparieren einer cDNA oder genomischen DNA-Bibliothek charakteristisch für eine Spezies, ein Gewebe, ein Entwicklungsstadium, eine Zelle, eine Organelle, ein Geschlecht, ein Krankheitsstadium, ein Mikroorganismus, eine Gewebekultur einer Zelllinie, ein Virus, ein Bakteriophage, ein Organismus, eine Pflanze, ein Antikörper, eine Antikörperbibliothek, ein Proteinkomplex oder interagierende Proteine;
  • (bb) Exprimieren der erhaltenen cDNA oder genomischen DNA-Bibliothek aus Schritt (ba),
  • (bc) Isolieren der erhaltenen (Poly)peptide aus Schritt (bb),
  • (bd) Fragmentieren besagter (Poly)peptide,
  • (be) Analysieren der erhaltenen Fragmente aus Schritt (bd) durch Massenspektrometerie; und
  • (bf) Speichern der erhaltenen Daten aus Schritt (be) in Kombination mit der Quelle der entsprechenden (Poly)peptide in einer Datenbank.

Der Begriff "cDNA oder genomische Bibliothek" bezieht sich auf Bibliotheken bestehend aus komplementärer DNA oder genomischen DNA Molekülen. Diese cDNA oder genomischen DNA Moleküle, auf die in der Beschreibung durchweg Bezug genommen wird, können Volllänge oder nicht-Volllänge sein. Es ist bevorzugt, dass sie Volllänge sind. Falls sie nicht Volllänge sind, kodieren die besagten Fragmente vorzugsweise für eine Proteindomäne oder ein Epitop.

Diese Ausführungsform ist besonders nützlich für Anwendungen, wobei es gewünscht oder notwendig ist, dass ein direkter Zugang zu der genetischen Information kodierend für das (Poly)peptid erfolgt für den MPI, welches in der Datenbank gefunden werden konnte. Zum Beispiel, falls das MPI von einem unbekannten (Poly)peptid mit einem MPI der Datenbank verglichen wird, stellt die Identifikation von einem MPI im Datenbankabgleich mit dem zu analysierenden MPI des (Poly)pepetids auf diese Weise nicht nur die Information in Hinsicht auf bestimmte Funktionen des (Poly)peptids bereit, sondern macht ebenfalls sogleich die korrespondierende genetische Information zugänglich. Daher brauchen nur Clone von Interesse sequenziert werden (siehe 2).

Diese Ausführungsform trägt ebenfalls zu der Geschwindigkeit und Zweckmäßigkeit des Verfahrens in einem weiteren Aspekt der vorliegenden Erfindung bei. Zwecks Identifizieren und/oder Erhalten der Nukleinsäure, die für ein (Poly)peptid kodiert, dass durch Massenspektrometrie analysiert wurde, wurden im Stand der Technik DNA Sequenzen in der Datenbank in Aminosäuresequenzen in allen möglichen Leseraster computer-übersetzt und z. B. Trypsin-Verdauungsprodukte dieser Aminosäuresequenzen computer-erzeugt. Die molekularen Massen dieser Verdauungsprodukte wurden dann theoretisch berechnet und mit den experimentell erhaltenen massenspektrometrischen Daten verglichen. Daher war die Identifikation eines gewünschten Nukleinsäuremoleküls nicht nur zeitraubend und beschwerlich, sondern ebenfalls fehleranfällig für die Identifikation von falsch-positiven Sequenzen, weil theoretische und experimentell erhaltene Daten einander verglichen wurden. Anderenfalls oder zusätzlich könnten aus dem gleichen Grund korrekte Sequenzen fehlen.

In sogar einer weiteren bevorzugten Ausführungsform des Verfahrens der vorliegenden Erfindung ist die besagte Referenz (Poly)peptid-Datenbank erzeugt aus (Poly)peptiden, die aus ihrem natürlichen Kontext isoliert werden.

Dies erlaubt vorteilhaft die Erzeugung von MPIs inter alia unter Berücksichtigung, z. B. post-translationaler Modifikationen oder spezifisch prozessierten Formen eines (Poly)peptids, dass sich nicht ereignen kann, wenn z.B. ein eukaryontisches (Poly)peptid rekombinant in einem prokaryontischen Wirt hergestellt wird.

Es ist jedoch ebenfalls gemäß der vorliegenden Erfindung vorgesehen, dass die Datenbank auch Einträge enthält mit struktureller und funktionaler Information von rekombinant hergestellten (Poly)peptiden, wobei ihre korrespondierende DNA Sequenzen bekannt sein können oder nicht bekannt sein können.

Die (Poly)eptide können nativ oder denaturiert sein.

In einer noch weiteren bevorzugten Ausführungsform ist das besagte zu identifizierende und/oder zu charakterisierende (Poly)peptid ein rekombinant hergestelltes (Poly)peptid.

Verfahren für die rekombinante Herstellung von (Poly)peptiden sind in der Technik wohlbekannt und umfassen, z. B. Herstellung des (Poly)peptids in prokaryontischen oder eukaryontischen Wirten. Jedoch kann das (Poly)peptid ebenfalls durch wohlbekannte in vitro Transkription oder Translationsverfahren hergestellt werden.

In einer bevorzugten Ausführungsform ist das erwähnte rekombinant hergestellte (Poly)peptid in einer (Poly)peptidbibliothek enthalten, die besagte Bibliothek wird hergestellt durch Expression einer Bibliothek von Nukleinsäuremolekülen enthaltend eine Nukleinsäuremolekül kodierend für das besagte (Poly)peptid.

Vektoren, die gemäß der vorliegenden Erfindung verwendet werden können umfassen, z. B. Plasmide, Cosmide, Viren und Bakteriophagen, die konventionell in der Gentechnik verwendet werden. Expressionsvektoren erhältlich aus Viren solche wie Retroviren, Vaccinia Virus, adeno-assoziierten Virus, Herpes Viren, oder Bovine Papilloma Virus können für die Übertragung des Nukleinsäuremoleküls der Erfindung in die abgezielte Zellpopulation verwendet werden. Die Verfahren sind für den Fachmann wohlbekannt und können für die Konstruktion rekombinanter viraler Vektoren verwendet werden; siehe, zum Beispiel, die beschriebenen Techniken in Sambrook et al., Molecular Cloning A Laboratory Manual, Cold Spring Harbor Laboratory (1989) N. Y. und Ausubel et al., Current Protocols in Molecular Biology, Green Publishing Associates und Wiley Interscience, N. Y. (1989). Der Vektor enthält das Nukleinsäuremolekül der Erfindung kann in die Wirtszelle nach wohlbekannten Verfahren übertragen werden, die abhängig vom Typ des zellulären Wirtes variieren. Zum Beispiel wird die Kalziumchlorid-Transfektion üblicher Weise für prokaryontischen Zellen verwendet, wohingegen z. B. Kalziumphosphat oder DEAE-Dextran mediierte Transfektion oder Elektroporation für andere zelluläre Wirte verwendet werden können; siehe Sambrook, supra.

Solche Vektoren können weitere Gene aufweisen, solche wie Markergene, die eine Selektion des besagten Vektors in einer geeigneten Wirtszelle und unter geeigneten Bedingungen erlauben.

Expressionsvektoren enthalten weitere Expressionskontrollsequenzen, die eine Expression in prokaryontischen oder eukaryontischen Zellen erlauben. Expression des besagten Nukleinsäuremoleküls umfasst die Transkription des Nukleinsäuremoleküls in eine translatierbare mRNA. Regulatorische Elemente zur Sicherung der Expression in eukaryotischen Zellen, vorzugsweise Säugetierzellen, sind dem Fachmann wohlbekannt. Sie enthalten üblicher Weise regulatorische Sequenzen zur Sicherung der Initiation der Transkription und, optional, ein poly-A Signal zur Sicherung der Termination der Transkription und Stabilisierung des Transkripts und/oder ein Intron zur weiteren Erhöhung der Expression der besagten Polynucleotide. Zusätzliche regulatorische Elemente können sowohl transkriptionale als auch translationale Enhancer und/oder natürlich-assoziierte oder heterologe Promotorregionen umfassen. Mögliche regulatorische Elemente erlauben die Expression in prokaryontischen Wirtszellen umfassend, z. B. den PL, lac, trp oder tac Promotor in E. coli, und Beispiele für regulatorische Elemente, die die Expression in eukaryontischen Wirtszellen ermöglichen, sind der AOX1 oder GAL1 Promotor in Hefe oder der CMV-, SV40-, RSV-Promotor (Rous sarcoma virus), CMV-Enhancer, SV40-Enhancer oder ein Globin-Intron in Säugetier- und anderen tierischen Zellen. Neben Elementen, die für die Initiation der Transkription verantwortlich sind, können solche regulatorische Elemente ebenfalls Transkription-Termination-Signale nachgeschaltet in der Nukleinsäure enthalten, solche wie der SV40-poly-A site oder der tk-poly-A site. Darüber hinaus, abhängig von dem verwendeten Expressionssystem können Leader-Sequenzen an die zu kodierende Sequenz der Nukleinsäure der Erfindung hinzugefügt werden und sind wohlbekannt in der Technik, die imstande sind das Polypeptid in ein zelluläres Kompartiment zu richten oder es in das Medium zu sekretieren. Die Leader-Sequenz(en) is (sind) in geeigneter Folge mit Translations-, Initiations- und Terminationssequenzen assembliiert, und vorzugsweise, ist eine Leader-Sequenz imstande zur gerichteten Translation des translatierten Proteins, oder ein Teil davon, in den periplasmatischen Raum oder extrazellulärem Medium. Wahlweise kann die heterologe Sequenz für ein Fusionsprotein kodieren, einschließlich einer C- oder N-terminalen Peptididentifizierung, die gewünschte Charakteristika verleiht, z. B. Stabilisierung oder vereinfachte Aufreinigung des exprimierten rekombinanten Produkts. In diesem Zusammenhang sind geeignete Expressionsvektoren in der Technik wohlbekannt, solche wie Okayama-Berg cDNA Expressionsvektor pcDV1 (Pharmacia), pCDM8, pRc/CMV, pcDNA1, pcDNA3(In-vitrogene), pSPORT1 (GIBCO BRL), pCi (Promega), oder pQE30 (Qiagen).

In einer zusätzlichen bevorzugten Ausführungsform des Verfahrens der vorliegenden Erfindung ist das besagte zu identifizierende und/oder zu charakterisierende (Poly)peptid Teil eines Proteinkomplexes. Wobei ein Protein isoliert wird und das Protein oder die Proteine, die den Komplex bilden unter Verwendung ihrer MPIs identisch sind. Solche Komplexe können auch auf 1D oder 2D Gelen laufen, und die Spots isoliert und identifiziert werden.

In einer noch weiteren bevorzugten Ausführungsform des Verfahrens der vorliegenden Erfindung ist das besagte zu identifizierende und/oder zu charakterisierende (Poly)peptid in Interaktion mit einem anderen (Poly)peptid. Der Begriff "ein anderes (Poly)peptid " umfasst Antikörper, die spezifisch das besagte (Poly)peptid oder Fragmente oder Derivate davon mit der gleichen Spezifität erkennen. Der Begriff "Fragment" eines Antikörper ist wohlverstanden in der Technik (siehe z.B. Harlow und Lane "Antibodies, A Laboratory Manual", CSH Press, Cold Spring Harbor, USA, 1988) und beinhaltet Fab und F(ab')2 Fragmente. Der Begriff "Derivat" ist gleichermaßen wohlverstanden und umfasst scFv Fragmente. Phage Display präsentierende Antikörper können ebenfalls verwendet werden und sind wohlbekannt in der Technik.

In einer weiteren bevorzugten Ausführungsform liegt das besagte zu identifizierende und/oder zu charkterisierende (Poly)peptid in einem Lysat oder in einem gesamten Zellextrakt vor. Hier können (Poly)peptide isoliert werden, die schwierig in der Auftrennung auf 2D Gelen sein können oder schwierig sein können rekombinant zu exprimieren. Beispiele solcher (Poly)peptide können sowohl membrangebundene Proteine, trans-membrane Proteinen und Rezeptoren als auch Proteine umfassen, die toxische Proteine für den Expressionswirt sind, falls ein rekombinantes Expressionssystem verwendet wird.

In einer noch weiteren bevorzugten Ausführungsform ist die besagte massenspektrometrische Methode MALDI-MS, MALDI-MS/MS, Elektrosprayionisation (ESI), Q-TOF oder post-source decay (PSD).

In einer besonders bevorzugten Ausführungsform ist die besagte Bibliothek von Nukleinsäurenmolekülen kodierend für die (Poly)peptide als Fusionsproteine.

In einer noch weiteren meist bevorzugten Ausführungsform enthalten die besagten Fusionsproteine einen tag.

Tags erlauben vorteilhaft die zweckgemäße Isolation, Reinigung, Detektion und Lokalisation für „Re-arraying" (neu-anordnende) Zwecke der hergestellten (Poly)peptide.

In einer meist bevorzugten Ausführungsform ist das besagte tag ein His-tag.

Jedoch können andere tags wie, z.B. c-myc, FLAG, alkaline phosphatase, EpiTagTM, V5 tag, T7 tag, XpressTM tag, Strep-tag, ein Fusionsprotein, vorzugsweise GST, Cellulose binding domain, Green fluorescent protein (GFP), Maltose binding Protein oder lacZ ebenfalls zur Durchführung des Verfahrens der vorliegenden Erfindung geeignet sein.

In einer weiteren besonders bevorzugten Ausführungsform des Verfahrens der vorliegenden Erfindung ist die Expression induzierbar.

In noch einer bevorzugten Ausführungsform des Verfahrens der vorliegenden Erfindung ist das besagte Nukleinsäuremolekül cDNA. Diese Ausführungsform umfasst ebenfalls Nukleinsäuremoleküle, die ein Fragment oder ein Volllänge cDNA Molekül bilden.

Jedoch ist es ebenfalls vorgesehen, dass das besagte Nukleinsäuremolekül eine genomische DNA ist. Diese Ausführungsform umfasst ebhenfalls Nukleinsäuremoleküle, die ein Fragment oder Volllänge genomisches DNA Molekül bilden.

In einer weiteren bevorzugten Ausführungsform des Verfahrens der vorliegenden Erfindung erfolgt die besagte Analyse in Schritt (a) durch Oberflächen-Plasmonresonanz im Zusatz zur oder alternativ zur Massenspektrometrie, wie wohlbekannt in der Technik. Solche Verfahren können mittels des BIA core Systems durchgeführt werden, wie wohlbekannt in der Technik. Dies hat sowohl Vorteile zur Bestimmung der Interaktionen, Affinitätsmessungen, Dissoziations- und Assoziationmessungen, als auch zum Identifizieren und Charakterisieren der Interaktionspartner.

In einer noch weiteren besonders bevorzugten Ausführungsform, vor der Expression der besagten Bibliothek von Nukleinsäuremolekülen, werden die folgenden Schritte ausgeführt:

  • (aa) Anreicherung besagter Nukleinsäuremoleküle,
  • (ab) reguläres Anordnen besagter angereicherter Nukleinsäuremoleküle; und, gegebenenfalls (ac) Hybridisieren der regulär angeordneten Nukleinsäuremoleküle mit einer Vielzahl von Oligonukleotiden;
  • (ad) Identifizieren von Nukleinsäuremolekülen, die mit dem gleichen Satz von Oligonukleotiden hybridisieren; und
  • (ae) reguläres Neuanordnen pro Satz von Oligonukleotiden einer Gattung von Nukleinsäuremolekülen.

Es ist besonders bevorzugt, dass die Nukleinsäuremoleküle Volllänge aufweisen.

In dieser Ausführungsform werden Anordnungen, vorzugsweise Mikroanordnungen bereit gestellt, enthaltend optional eine nicht-redundanten Satz von genomischer DNA oder cDNA Clonen (im Folgenden ebenfalls bezeichnet als das "UNIgene set" oder "UNIclone set") repräsentierend einen Satz von mRNAs exprimiert in einer spezifischen Spezies, Gewebe, Entwicklungsstadium, Zelle, Organelle, Geschlecht, Krankheitsstadium, Mikroorganismus, Gewebekultur einer Zelllinie, Virus, Bakteriophage, Organismus, oder Pflanze etc. (siehe oben). Die Oligonukleotide können der Reihe nach oder als eine Mischung von Oligonukleotiden mit der Anordnung von Nukleinsäuremolekülen hybridisieren. Im letzteren Fall ist jede Spezies von Oligonukleotiden mit einem spezifischen Label markiert. Diese Verfahren auch genannt Oligonucleotid-Fingerprinting ist in der Technik bekannt (Meier-Ewert et al., 1998; Radelof et al., 1998; Poustka et al., 1999; Herwig et al., 1999). Darüber hinaus ist der Fachmann wohlwissend über verscheidene Nukleinsäuremarkierungen (-labels) (siehe, z. B., WO 99/29897 und WO 99/29898).

Reguläres Anordnen besagter amplifizierter Nukleinsäuremoleküle kann z. B. durch Nadel oder Pin-Spotting erfolgen, wobei Flüssigkeit enthaltend die Nukleinsäuremoleküle durch Adhäsion an Edelstahlstiften (Pin) abgegeben wird. Beziehungsgweise kann die Piezo-Tintenstrahltechnologie verwendet werden, wo cDNAs zum Beispiel ohne Berührung der Oberfläche übertragen wird. Vorteilhaft ist ein Mehrfach-Kopf Piezo-Strahl Mikroarraysystem zu verwenden, das einen Aufbau von großen Mikroarrays auf einer Vielzahl von Oberflächen mit einer Spotdichte von mehr als 2.000 Clonen/cm2 ermöglicht. Diese Methodik ist kombiniert mit einem Hochauflösungsnachweissystem, basierend auf Laserscannen, als eine weitere Alternative zum konventionellen Nadel-Spotting; eine Tintenstrahltechnik („drop ondemand") kann verwendet werden. Diese Technologie reduziert die Dimensionen der Hybridisierungsanordnungen um ein oder zwei Größenordnungen, die genetischen Proben werden mit einem Multipipetten (Dispenser) mikro-abgebenden Roboter pipettiert, der nach dem gleichen Prinzip eines Tintenstrahldruckers arbeitet. Integrierte Bildanalyse-Routinen entscheiden, ob ein geeigneter Tropfen erzeugt wird. Falls der Tropfen schlecht gebildet wird, wird die Düsenspitze automatisch gereinigt. Eine zweite integrierte Kamera definiert Positionen für die automatische Abgabe, z. B. Füllen von Kavitäten in Siliziumwafer. Jeder Kopf ist in der Lage zur Abgabe einfacher oder mehrfacher Tropfen mit einem Volumen von 100 pI. Die Dispenser können innen ein magnetisches bead-basiertes Reinigungssystem aufweisen. Dieses erlaubt Konzentration und Reinigung der Spotting-Proben vor der Abgabe. Die erzeugte Spotgröße ist abhängig von der Oberfläche auf welche die Flüssigkeit abgegeben wird und variiert zwischen 100 &mgr;m und 120 &mgr;m im Durchmesser. Die Dichte der Anordnungen kann auf 3.000 spots/cm2 erhöht werden. Das Mikro-Dispenser System hat die Fähigkeit fliegend zu dispensieren und benötigt weniger als drei Minuten um 100 × 100 Spots zu dispensieren, in einem Quadrat mit 100 &mgr;m Durchmesser und mit 230 &mgr;m Entfernung zwischen dem Zentrum eines jeden Spots. In dieser Dichte ist es möglich eine kleine cDNA Bibliothek bestehend aus 14.000 Clonen auf einer Objektträgeroberfläche zu immobilisieren. Dies ermöglicht vorteilhaft eine höheren Grad an Automation, da Glasträger steif und leichter zu Händeln sind als Membrane.

Die derart hergestellte Anordnung wird dann unter stringenten Bedingungen mit einem 9-mer Oligonukleotid bei einer Temperatur zwischen 37 Grad Celsius und 42 Grad Celsius hybridisiert, abhängig von dem GC Gehalt, vorzugsweise 39 Grad Celsius, und die positiven Signale werden detektiert, quantifiziert und gespeichert mittels Bild-Analyse Software.

Dieser Schritt wird wiederholt bis Daten von mehreren Hybridisierungen gesammelt wurden. Durch Kombinieren aller dieser Daten kann für jeden Clon ein Oligofingerprint bestehend aus einer Liste von Proben, die mit dem Nukleinsäuremolekül hybridisieren, erstellt werden. Da die Hybridisierungen unter stringenten Bedingungen durchgeführt werden, sind diese Fingerprints eine Eigenschaft der Clone und deren DNA Sequenzen und daher – wann immer – zwei Clone gleiche oder identische Fingerprints aufweisen, müssen sie die gleiche oder identische Sequenz aufweisen und können auf dieser Basis zusammen geclustert werden. Jedes Cluster repräsentiert ein verschiedenes Gen und hat einen Durchschnitt oder Consensus Fingerprint charakteristisch für das Gen.

Schließlich können die Nukleinsäuremoleküle, die die gleiche Sequenz zeigen, identifiziert werden und ein Satz von nicht-redundanten Nukleinsäuremolekülen kann durch die gleichen Verfahren wie vorstehend beschrieben regulär neuangeordnet werden.

Diese Anordnungen erlauben die gleichzeitigen Messungen der Genexpressionsniveaus und bilden daher einen Hinweis auf den Aktivitätsgrad von allen Genen repräsentiert in der Anordnung in jeder untersuchten Probe. Wenn komplexe Mischungen von RNA oder cDNA oder genomischer DNA aus verschiedenen, z. B. Geweben oder Entwicklungsstadien mit diesen DNA chips hybridisiert werden, ermöglicht dies die Bestimmung von Unterschieden in Genexpressionsprofilen.

Es ist weiterhin vorgesehen, dass (Poly)peptid-Anordnungen, in welche die Positionen der (Poly)peptide mit den Positionen ihrer korrespondierenden cDNA Clonen auf der DNA-Anordnung, hergestellt werden, und die (Poly)peptide analysiert werden, wie vorstehend beschrieben. Proteinanordnungen können z. B. durch automatisches Spotting von Proteinen aus flüssigen Expressionskulturen mittels eines Übertragungsstempels montiert auf einem Flachbett-Spotting Roboter hergestellt werden. Falls die zu verwendenden Expressionsprofile komplementär zu den MPIs der korrespondierenden (Poly)peptide sind, stellt dies eine direkte Verbindung der mRNA und extrahierten Proteinpopulationen aus z. B. Zellen oder Geweben her (Bussow et al., 1998; ebenfalls gezeigt in 10, wo eine hochdichte Proteinanordnung von über 2.500 Proteinen auf einem festen Träger angeordnet sind und mit einem anti-Tubulin Antikörper gescreent werden. Positive Clone wurden als Tubulin identifiziert).

In einer bevorzugten Ausführungsform erfolgt die Amplifikation in Schritt (aa) durch PCR.

PCR Amplifikation ist eine wohlbekannte Technik in der Technik (siehe z. B. Sambrook et al., loc. cit.) und der Fachmann weiß kurzerhand wie die Reaktionsparameter bestimmter Amplifikationsschritte anzupassen sind. Beispielhafte Bedingungen für 12mer Oligonukleotide sind, wobei vorzugsweise sich kein Mismatch ereignet, Temperaturen zwischen 37 Grad Celsius und 42 Grad Celsius, abhängig vom GC Gehalt, vorzugsweise 39 Grad Celsius.

In einer bevorzugten Ausführungsform des Verfahrens der vorliegenden Erfindung wird nach Expression der besagten Bibliothek der Nukleinsäuremoleküle, die folgenden Schritte in Verbindung mit Schritt (b) ausgeführt:

  • (bi) identifizieren von (Poly)peptiden, die auf der Basis der vergleichenden Analyse einen einheitlichen minimalen Protein Identifizierer aufweisen und (bii) Neuanordnen der Clone, die die im Schritt (bi) identifizierten (Poly)peptide exprimieren, regulär in einem im Wesentlichen nicht-redundanten Satz.

Mit dieser Ausführungsform werden die gleichen Vorteile auf der Proteinebene erhalten, wie erörtert für die vorstehende Ausführungsform auf der Nukleinsäureebenen. Es wird nämlich eine Bibliothek oder Sammlung von im Wesentlichen nicht-redundanten (Poly)peptiden erhalten, welche dann weiter analysiert wird. Diese Bibliothek, auch bekannt als UNIclone-, oder UNIprotein- oder UNIgene set, kann zum Herstellen der Proteinanordnungen und/oder DNA Anordnungen, wie in Cahill (2000) beschrieben, verwendet werden.

In einer noch weiteren bevorzugten Ausführungsform erfolgt das besagte reguläre Anordnen und/oder besagte reguläre Neuanordnen auf einem festen Träger.

In einer noch weiteren bevorzugten Ausführungsform ist der besagte feste Träger ein Chip, ein Glasträger, ein Filter, eine Membran, ein magnetisches Bead, eine Silica Wafer, Metall, ein massenspektrometrisches Target oder eine Matrix. Jeder der obigen festen Träger kann beschichtet oder unbeschichtet sein. Die Beschichtung kann sowohl mit einem Gel wie Hydrogel sein als auch mit Teflon. Die chemische Beschichtung ist ebenfalls vorgesehen. Die Oberfläche des festen Trägers kann auch mit Anker-Targets überzogen sein.

In einer meist bevorzugten Ausführungsform des Verfahrens dieser Erfindung wird das erwähnte reguläre Anordnen und/oder das erwähnte reguläre Neu-Anordnen auf einer porösen Oberfläche durchgeführt.

Die poröse Oberfläche kann aus einem festen oder nicht -festen Träger bestehen. Die erwähnte poröse Oberfläche kann, zum Beispiel, ein Schwamm, eine Membran, ein Filter; zum Beispiel eine PVDF-Membran oder Nylon-Membran sein.

In einer weiteren meist bevorzugten Ausführungsform wird die erwähnte reguläre Anordnung und/oder Neu-Anordnung auf einer nicht-porösen Oberfläche durchgeführt.

Die nicht-poröse Oberfläche kann auch ein(e) feste(r) oder nicht-feste(r) Oberfläche/Träger sein.

In einer weiteren meist bevorzugten Ausführungsform des Verfahrens dieser Erfindung wird das erwähnte Anordnen und/oder Neu-Anordnen durch eine automatische Vorrichtung erreicht.

Diese besagte automatische Vorrichtung, vorzugsweise in der Gestalt eines automatisierten Geräts, kann Spotting, Anordnung in Gitterformat, Pipettieren oder piezo-elektrisches Besprühen biologischen Materials beinhalten.

Die Expression einer Bibliothek von Nukleinsäuremolekülen kann durch die Auswahl von willkürlich verteilten Clonen aus Agar-Platten und Anordnen dieser Clone in Mikrotiter-Platten erfolgen. Vorteilhafterweise wird dies durch Greifroboter erreicht. Die Kolonien werden durch ein Bild-Analyse-System geprüft, um die Position für die Auswahl zu bestimmen. Ausserdem identifiziert die Software Clon-Positionen und überträgt die Position in die Bewegung des automatisierten Geräts. Der nächste Schritt ist die Erstellung von Profilen von Proteinprodukten, die durch differentiell exprimierte genomische DNA oder cDNA Clone kodiert werden, einschließlich der gleichzeitigen Expression einer großen Zahl von cDNA Clonen in einem geeigneten Vektorsystem und der Hochgeschwindigkeits-Anordnung von Proteinprodukten. Zum Beispiel kann durch Verwendung von automatisierter Technologie eine menschliche Stammhirnzellen cDNA Expressionsbibliothek auf Mikrotiter-Platten angeordnet werden, und Bakterienkolonien können auf PVDF Filter in Gitterformat angeordnet werden. In situ Expression von rekombinanten Fusions-Proteinen kann induziert und detektiert werden, indem ein Antikörper gegen ein 6 × His-tag enthaltendes Epitop verwendet wird. Verwendet man einen solchen Ansatz, können die Gene in diesen Bibliotheken gleichzeitig auf der DNA- und Protein-Ebenen analysiert werden, und sie können Ursprung für rekombinante Gene und Proteine sein, um DNA und Protein-Chips zu erzeugen. Dieser Ansatz könnte ebenso den groß-technischen systematischen Rahmen von rekombinanten Proteinen für die funktionellen Studien hervorbringen, um cDNA Expressionsbibliotheken herzustellen und anzuorden und um die direkte Verbindung zwischen DNA Sequenzinformation auf individuellen Clonen und Proteinprodukten und zurück auf der Genom-Ebene zu etablieren. Dies macht transformierte Genprodukte zugänglich für Experimente in großer Stückzahl und schließt die Lücke zwischen Proteinexpression und DNA-Sequenzdaten (Cahill et al., 2000).

In einer weiteren bevorzugten Ausführungsform des Verfahrens dieser vorliegenden Erfindung umfaßt die erwähnte Auswahl von Oligonukleotiden mindestens 2, vorzugsweise mindestens 10, und vorzugsweise mindestens 150 verschiedene Oligonukleotide.

In einer weiteren bevorzugten Ausführungsform des Verfahrens dieser vorliegenden Erfindung werden vor Stufe (aa) folgende Schritte durchgeführt:

  • (aa') optional reverse Transkription von mRNA von einer Spezies, einem Gewebe, einem Entwicklungsstadium, einer Zelle, einer Organelle, einem Geschlecht, einem Krankheitsstadium, einem Mikroorganismus, einer Gewebekultur, einer Zelllinie, einem Virus, einem Bakteriophage, einem Organismus, einer Pflanze in cDNA;
  • (aa'') Klonieren der erhaltenen cDNA aus Schritt (aa'') oder genomischer DNA in einen Expressionsvektor.

Die Isolation von mRNA und die Rück-Transkription in cDNA sind wohlbekannte Methoden in der Technik (siehe, z.B. Sambrook, a.a.O.).

Dementsprechend kann RNA präpariert werden und mRNA isoliert werden durch, zum Beispiel, oligo-dT Cellulose. Darauf folgend kann zum Beispiel oligo-dT primer hybridisiert werden in poly-A tails der mRNA, und mRNA kann beispielsweise durch AMV-Rück-Transkriptase rück-transkribiert werden. Nach einer zweiten Strangsynthese kann die so erzeugte cDNA durch wohlbekannte Methoden in einen Expressionsvektor geklont werden. Geeignete Expressionsvektoren sind oben beschrieben worden.

Wenn die extrahierten mRNA Populationen über Rück-Transkription und Klonen wie rekombinante Fusionsproteine exprimiert werden, können ihre kodierten MPIs einfach durch Massenspektrometrie bestimmt werden (siehe 4 und ebenso 3B, 6B, 7). Durch den Vergleich der von nativen Proteinen ermittelten MPIs, isoliert durch 2-DE, mit ihren rekombinanten Gegenstücken können die entsprechende Transkription und die Übertragungsprodukte identifiziert werden. Insofern können eine hohe Zahl von biologisch aktiven Genprodukten bestimmt werden und mit ihren jeweiligen Genen verbunden werden, ohne daß die Sequenz bekannt ist. (siehe 3, 4 und 5).

In einer weiteren bevorzugten Ausführungsform, werden die folgenden Schritte ausgeführt:

  • (ai) nach der Expression des erwähnten (Poly)peptids, das Isolieren der ausgedrückten Fusionsproteine durch das tag;
  • (aii) Fragmentieren der Fusionsproteine;
  • (aiii) Analyse der in Schritt (aii) erzielten Fragmente durch Massenspektrometrie; und
  • (aiv) Speichern der in Schritt (aiii) erzielten Daten in einer Datenbank.

In dieser Ausführungsform können Clone herangezogen werden, zum Beispiel auf Mikrotiter-Platten, es kann die Protein-Expression induziert werden, und die produzierten Fusionsproteine können mit Hilfe ihrer tags oder zum Beispiel magnetischen Beads gereinigt werden. Außerdem ist vorgesehen, die gebundenen Fusionsproteine auf Partikel zu digerieren z. B. durch Trypsin, und das entstandene Peptid wird der MALDI-MS und MS-PSD unterzogen. Als Ergebnis wird ein MPI-Profil für jedes (Poly)peptid erstellt – hergestellt durch die wahlweise nicht-redundanten Clone. Das Profil gibt jede Eintragung eindeutig an und erlaubt die schnelle Identifikation (siehe 6).

In einer weiteren bevorzugten Ausführungsform wird die erwähnte Isolierung durch Metall-Chelat-Affinitäts-Aufreinigung herbeigeführt.

In einer weiteren meist bevorzugten Ausführungsform verwendet die erwähnte Metall-Chelat-Aftinitäts-Aufreinigung Ni2+-NTA Ligande, die auf Magnet-Partikel festgehalten werden. Alternativ können sie auch auf Agarose festgehalten werden; siehe 3.

Jedoch können Ni2+-NTA Liganden ebenfalls immobilisiert werden auf Ni2+-NTA Agarose oder einer Matrix einer Säule. Dieses Verfahren der Aufreinigung ist meist bevorzugt, weil die Ausbeute und Reinheit des Produktes hoch ist, das Verfahren billig und schnell ist, und weil es sich für die Verwendung von automatisierten Geräten und den Einsatz einer großen Anzahl von Proteinen eignet.

Eine weitere bevorzugte Ausführungsform des Verfahrens der vorliegenden Erfindung enthält weiterhin:

  • (af) Hybridisieren von genomischer DNA, PNA, cDNA oder RNA Molekülen zu den wahlweise neu-angeordneten Nukleinäuremolekülen von Schritt (ae); und
  • (ag) Identifikation von genomischer DNA, PNA, cDNA oder RNA Molekülen welche hybridiziert werden zu den wahlweise neu-angeordneten Nukleinsäure-Molekülen auf der Anordnung.

Jedes der oben genannten hybridisierten Moleküle kann die Form synthetischer Oligonucleotide aufweisen. Andere Quellen wie natürlich erhaltene oder rekombinant hergestellte sind ebenfalls eingeschlossen.

Diese Ausführungsform der vorliegenden Erfindung erlaubt die Verbindung der Gene zu ihren Expressionsprodukten und umgekehrt (siehe 2 und 4).

In einer bevorzugten Ausführungsform des Verfahrens der vorliegenden Erfindung erfolgt die Expression in Prokaryonten.

In einer bevorzugten Ausführungsform sind die besagten Prokaryonten Bakterien.

In einer bevorzugten Ausführungsform sind die besagten Bakterien E. coli (siehe 6B und 7B).

In einer bevorzugten Ausführungsform des Verfahrens der vorliegenden Erfindung erfolgt die Expression in nicht-humanen Eukaryonten oder eukaryontischen Zellen.

In einer noch bevorzugten Ausführungsform sind die erwähnten nicht-humanen Eukaryonten Hefe, zum Beispiel S. cerevisiae.

In einer bevorzugten Ausführungsform gehört die erwähnte Hefe zur Spezies Pichia pastoris (siehe 7A).

In einer weiteren bevorzugten Ausführungsform sind die erwähnten Eukaryonten Säugetier- oder Insektenzellen.

In einer bevorzugten Ausführungsform der Methode der vorliegenden Erfindung haben die erwähnten Peptide ein Molekulargewicht von zwischen 600 bis 4.500 Daltons. Dieser Bereich von Peptiden hat spezifische Vorteile, insbesondere falls die zu analysierenden Peptide von heterologer Natur sind, verglichen mit den in der Datenbank gespeicherten Peptiden, wie aus dem beiliegenden Beispiel hervorgeht. (siehe 8: Peptid-Bereich von rekombinanten Proteinen).

Die Verteilung von m/z Werten ist wichtig für die Bestimmung der MPIs. Die MPIs wurden für die Zahl der Peaks in einem Spektrum innerhalb des Bereichs zwischen 800 Da bis 2.000 Da berechnet. Dieser Bereich wurde gewählt, weil die Mindest- und Höchstnachweisrate im Durchschnitt zwischen 600-2.750 Da für homologe und zwischen 600-4.500 Da für heterologe Proteine liegt (8: Peptid-Bereich für homologe Proteine). Vergleicht man beide Spektren systematisch, fallen bestimmte Peptide heraus. Daher wurde der obige Schwellenbereich ausgewählt, um die MPI zu berechnen, was die Datenmenge verringert und die Suchgeschwindigkeit erhöht.

In einer bevorzugten Ausführungsform, haben die erwähnten Peptide ein Molekulargewicht von 600 bis 2750 Daltons. Diese Ausführungsform ist besonders vorteilhaft, wenn es sich um homologe Peptide handelt.

In einer bevorzugten Ausführungsform der Methode der vorliegenden Erfindung umfaßt der erwähnte Vergleich in Schritt (b) die Normalisierung für chemische oder post-translationale Modifikationen. Die Normalisierung kann zum Beispiel auf der Basis der Lehren des beigefügten Beispiels erfolgen.

In einer meist bevorzugten Ausführungsform ist die erwähnte chemische Veränderung Oxidation.

Post-translationale Modifikationen schließen Glykolisierung und Phosphorylierung, Acetylierung, Sulfatierung und Myristolierung ein.

Wie oben beschrieben, können (Poly)peptide durch das Verfahren der vorliegenden Erfindung identifiziert und bestimmt werden. In anderen Worten, das Verfahren der vorliegenden Eindung erlaubt die Aufstellung von strukturellen und funktionellen Charakteristika von (Poly)peptiden, unabhängig davon, ob sie bekannt oder unbekannt sind.

Wie ebenfalls oben beschrieben, erlaubt die Methode des vorliegenden Verfahrens die Kombination von biologischen und biochemischen Parametern von verschiedenen (Poly)peptiden mit ihren Gen-Expression-Profilen. (siehe 2 und 4).

Schließlich, wenn genomische DNA Moleküle hybridisiert werden zu den Anordnungen der Nukleinsäure-Molekülen, hergestellt nach dem hier vorgestellten Verfahren, erlaubt dies nicht nur die funktionale und strukturelle Identifikation und Charakterisierung von (Poly)peptiden, sondern auch die Identifikation und Isolierung von Genen, welche die (Poly)peptide kodieren. Damit trägt die Erfindung zur Erhellung der Beziehung zwischen Genom und Proteom, zum Beispiel in einer bestimmten Zelle oder einem Gewebe bei, wobei dies unter Normalbedingungen, Krankheitsbedigungen und in aktiviertem Zustand (beispielsweise medikamentös behandeltem) erforscht werden kann.

Das Verfahren der vorliegenden Erfindung kann ebenso sehr nützlich für die Entwicklung von Pharmazieprodukten und Diagnostik-Methoden sein. So kann das Verfahren fokussiert angewandt werden für die Identifizierung und/oder Charakterisierung von (Poly)peptiden mit veränderten Expressions-Niveaus und/oder strukturellen Modifikationen wie beispielsweise posttranslationalen Modifikationen oder Aminosäure-Substitutionen, Additionen und/oder Deletionen in verschiedenen Krankheitsstadien oder beim Vergleich von Normalbedingungen und Krankheitszuständen.

Diese Identifizierungen können, im Gegenzug, zur Identifizierung von entsprechenden Schäden auf der DNA führen und wertvolle Informationen für pharmazeutische oder diagnostische Zwecke liefern sowie die Identifikation von Verbindungen ermöglichen, die anormalen Expressions-Niveaus und/oder strukturellen Modifikationen entgegenwirken können und daher als potentielle Medikamente eingesetzt werden können.

Der Inhalt der hierin zitierten Dokumente wird durch Zitat in vollem Umfang eingefügt.

Die Figuren zeigen:

1: (a) Erfassung von Minimal-Protein-Identifikatoren (MPI) durch MALDI-MS. Die Proteine sind mit einer bestimmten Protease digeriert, etwa Trypsin, und die Molekularmasse der Spaltungsprodukte werden bestimmt.

Daran anschließend werden für jedes Proteinfragment-Ion die Spektren für eine Auswahl der prominenten Spaltungspeptide aufgenommen. Die Peptid-Massen-Karte aus dem ersten Spektrum erlaubt den Fingerprint der Primärstruktur des Proteins, während das Peak des Fragment-Ion den Fingerprint der Aminosäure-Sequenzen des Spaltungs-Peptids anzeigt. Diese Daten werden als MPI für jedes Protein kombiniert und gespeichert.

  • (b) Strategie zur Identifikation von Proteinen in Sequenz-Datenbanken. Eine Datenbank-Suche nach einer bestimmten Peptid-Massen-Karte ergibt eine Liste von möglichen Protein-Sequenzen (z. B. 100 Sequenzen). Diese Liste wird nun nach Spaltungspeptiden durchsucht, welche dem registrierten Fragment-Ion-Fingerprint entsprechen und sortiert. Der Vorteil der vorgeschlagenen Sequenz-Strategie liegt in der hohen Suchgenauigkeit und der kurzen Zeitdauer der Suche, da die zweite Auswahlrunde nur auf einen kleinen Teil der gesamten Datenmenge beschränkt bleibt.
  • (c) Strategie zum Vergleich von 2-DE Protein-Gels. Um Protein-Punkte zu bestimmen, werden die registrierten MPI anstelle ihrer Muster in silico verglichen (d.h. auf Computerbasis). Diese Auswahl verläuft unabhängig von den verwendeten Gelformaten, der angewandten Trennungstechnik und folgt dem 2-DE Protokoll. Korrelation von 2-DE Protein spot-Mustern und sortierte Protein Micro-arrays. Für alle rekombinanten Proteine, die auf der Anordnung gesichtet werden, sind zuvor MPI aufgenommen worden, die in einer Datenbank gespeichert wurden. Native Proteine, getrennt durch 2-DE, können nun ihren rekombinanten Derivativen zugeordnet werden, indem man ihre MPI mit den obigen Datenbank-Einträgen abgleicht.

2: Das vorgeschlagene Konzept: „Die Brücke".

Native Proteine korrelieren zu ihren Genen und RNA Expression-Niveaus durch die Verwendung von minimalen Protein-Identifizierer (MPIs, siehe 1) bestimmt durch Massenspektrometrie.

Ein Satz von UNIgene-UNIprotein (auch bekannt als Uniclone-Satz), extrahiert aus den cDNA Bibliotheken liefert sowohl die einzelnen Gen-Repräsentanten über PCR, die sofort zur Genexpressionsanalyse auf cDNA-Microarrays zugänglich sind, als auch die entsprechenden Expressionsprodukte wie (His) 6-Fusion-Proteine, die für Affinitäts-Aufreinigung zur Verfügung stehen. Die gereinigten Proteine werden proteolysiert und analysiert durch MALDI. Native Protein-Populationen, aus den Zellkulturen oder Gewebe extrahiert, werden getrennt und charakterisiert durch 2-D Elektrophorese, gefolgt von in situ Proteolyse und MALDI-MS. Die gesammelten MPIs werden mit den MPI aus der rekombinanten Protein-Bibliothek verglichen, und umgekehrt. Dadurch werden tausende von biologisch aktiven Genprodukten mit ihren Genen verbunden. Diese Verbindung ist unabhängig von jeglicher Sequenz-Information.

3: MALDI-TOF-MS tryptische Peptidmaps von nativer und rekombinanter Human-GAPDH. Native GAPDH wurde aus menschlichem Stammhirnprotein Extrakt isoliert mittels großformatiger 2-D Elektrophorese und in situ digeriert. Das Spektrum (obere Hälfte) wurde aus 5 &mgr;l Aliquots von gereinigtem Übernacht-Verdauungsüberständen erhalten. Rekombinantes menschliches GAPDH ausgestattet mit einem RGSHis6-tag am N-terminus wurde in E. coli exprimiert. Markierte Proteine wurden aus dem rohen Zellextrakt einer Metall-Chelat-Affinitäts-Aufreinigung unterzogen, indem NTA-Liganden verwendet wurden, immobilisiert auf Agarose (Qiagen, Germany) unter denaturierten Bedingungen. Die gereinigten Proteine wurden in situ digeriert.

Das Spektrum (untere Hälfte) wurde aus 0,5 &mgr;l einer Gesamtheit von 150 &mgr;l Verdauungsüberstand erhalten. Markierte Signale :* Tryptische Spaltpeptide detektiert im Verdauungsüberstand von nativer GAPDH gemäß der NCBI Datenbank (Zugangsnummer: 12,0649, Ausgabe 05.05.1999). Alle diese Peptide wurden ebenfalls detektiert im Verdauungsüberstand von rekombinanter GAPDH. #; Zusätzliche tryptische Spaltpeptide detektiert im Verdauungsüberstand von rekombinanter GAPDH. Detektierte Peptide in beiden Verdauungsüberständen, die nicht GAPDH und nicht irgendwelchen Trypsin Autolyseprodukte zugeordnet werden konnten.

4: Das neue Konzept 'Die Brücke'. Homologe Proteine aus 2D-Gelen werden mit ihren Genen korreliert und RNA Expressions-Niveaus durch die Verwendung von Minimal-Protein-Identifizierer (MPI) durch Massenspektrometrie bestimmt.

Ein UNIgene-UNIprotein-Satz (auch bekannt als UNIclone-Satz), hergestellt durch die cDNA Expressionsbibliothek, liefert sowohl Gene als auch Proteine, und Sequenz-Information für jeden Clone des Satzes kann ebenfalls erhalten werden. Der UNIgene-Satz kann durch PCR von allen Clonen ermittelt werden, und sie können zur Genexpressionsanalyse auf cDNA Microarrays verwendet werden [Eickhoff, 2000]. Die entsprechenden Proteine können verwendet werden, um eine UNIprotein-Anordnung herzustellen, oder, nach der Proteolyse, mit Hilfe der Analyse durch MALDI-MS, um bestimmte MPIs für jedes Protein zu erstellen und sie in einer Datenbank zu speichern. Durch Vergleich dieser MPIs mit MPI, die durch homologe Proteine erzielt wurden, deren Daten aus Gewebe extrahiert wurden und mit 2D Gelen getrennt wurden, ist eine Charakterisierung und Identifikation von durch 2D-Gelen getrennten Proteinen möglich.

5: 2D-Gel enthält elektrophoryetisch aufgetrennte Proteine aus menschlichem Stammhirngewebe. Die Proteine wurden zunächst getrennt durch ihren isoelektrischen Punkt(pI), gefolgt von Trennung in der zweiten Dimension je nach Molekulargewicht. Die Pfeile in der vergrößerten Sektion deuten auf identifizierte Punkte von Tubulin &agr;-1 Kette und seiner Isoformen an.

6: Vergleich der Spektren von homologen und rekombinanten Pyruvatkinase. A : Spektrum der homologen Pyruvatkinase, infolge Extraktion aus 2D Gelen und tryptischer Spaltung. B : Spektrum der rekombinant exprimierten Pyruvatkinase, ebenfalls infolge Reinigung und tryptischer Spaltung. Die identischen Peaks von sowohl des homologen und des rekombinanten Proteins sind durch ihre Größe dargestellt.

7: Vergleich der Spektren von rekombinanten humanen GAPDH, exprimiert in zwei verschiedenen Expressionswirten. A : Spektrum von GAPDH exprimiert in P. pastoris. B : Spektrum von GAPDH exprimiert in E. coli.

8: Die Verteilung der m/z Werte der homologen Proteine und der analysierten rekombinant exprimierten Proteine.

9: Flußdiagramm zur Veranschaulichung der Prozesse zum Identifizieren der Proteine mittels der Technologie der vorliegenden Erfindung.

10: Eine hochdichte Proteinanordnung mit mehr als 2.500 im Wesentlichen nicht redundanter Proteine angeordnet auf einem festen Träger. Durch Screening eines Proteinchips umfassend ungefähr 2500 verschiedene Proteine aus dem UNIprotein set gespottet auf eine PVDF Membran mit anti-Tubulin (human) Antikörper, &agr;-Tubulin Clone wurden identifiziert. Die exprimierten Proteine aus diesen Clonen können ebenfalls für die Generierung von MPIs verwendet werden.

Die Beispiele beschreiben die Erfindung.

Beispiel: Identifikation von Proteinen unter Gebrauch von 2D Gelelektrophorese und MPI aus einer Auswahl von rekombinant hergestellten Proteinen (siehe Fig. 3, Fig. 6 und Tabellen 1 und 2) Material und Methoden:

Stämme, Transformation und Medium, Escherichia coli Stämme XL-1 Blue, BL21 (D3) pLysS(Invitrogen) und SCS1 (Stratagene) wurden zum Klonen und Expression verwendet, wie beschrieben in [Bussow et al., 1998, Lueking et al., 2000].

Pichia pastoris: Stamm GS115 (his4, Mut+; Invitrogen) wurde für die eukaryotische Proteinexpression verwendet, wie beschrieben in [Lueking et al., 2000].

Protein Expression und Reinigung. Die bakterielle Proteinexpression wurde im Stamm SCS1 durchgeführt, wie beschrieben in [Bussow et al., 1998], und die Expression im Stamm BL21 (D3) pLysS, wie beschrieben in [Lueking et al., 2000]. Die Proteine wurden gereinigt, wie kürzlich beschrieben in [Bussow et al., 2000].

Massenspektrometrie Tryptische Spaltung von 2-D Gel getrennten Proteinen aus humanen Hirn

Coomassie G250-gefärbte großformatige 2D Gele von menschlichem Hirn des Gesamtprotein-Extraktes wurden präpariert, gemäß dem Protokoll von Klose (1975), Humangenetik 26, 231-243, wobei zylindrische Gelproben von 1 mm Durchmesser ausgeschnitten wurden und dann durch Inkubation mit 400 &mgr;l 25% Isopropanol in 30 min entfärbt wurden. Die entfärbten Gelproben wurden in einer Vakuum-Zentrifuge 10 min getrocknet, gefolgt von der Zugabe von 5 &mgr;l Digierierungspuffer (5 mM DTT, 5 mM n-octylglucopyranoside (n-OGP), 20 mM Tris, pH 7,8) darin enthalten 12 ng/&mgr;L modifiziertes Schweinetrypsin (Sequenzierungsgrad, Promega). Nach Übernacht-Inkubation bei 37°C wurden 5 &mgr;L 0,4% TFA, 5 mM n-OGP hinzugefügt und inkubiert für 1 h, bei Zimmertemperatur. Proben wurden bei -20°C gelagert, bevor die MALDI-MS Probenvorbereitung stattfand.

Tryptische Spaltung von heterolog exprimierten Proteinen

Die Proteine wurden elektrophoretisch getrennt durch SDS-PAGE (12,5% Polyacrylamid, Bisacrylamide 30 : 0,8). Die Gele wurden mit Commassie Blau markiert und entfärbt und Proteinpunkte wurden identifiziert. Die Punkte wurden aus den 2D Gelen herausgeschnitten und extrahiert und tryptisch digeriert wie oben beschrieben, eine wohlbekannte Methode.

MALDI Probenpräparation

Entsalzte und angereicherte Proben wurde mittels „micro-scale reversedphase purification tipps" (ZipTip-C18, Millipore) erzielt, gemäß dem Protokoll des Herstellers.

CHCA "surface affinity preparation"

Proben wurden präpariert in vorgegebenen MALDI Probenbehältern (Schuerenberg et al., 2000), mittels alpha-cyano-4-hydroxyzimtsäure (CHCA) als Matrix gemäß einem kürzlich beschriebenen Protokoll (Gobom et al., 2001).

MALDI-TOF-MS

Massenspektren von positiv geladenen Ionen wurden aufgenommen auf einem Bruker Scout 384 Reflextit Instrument (Bruker Daltonik, Bremen, Germany) operierend im Reflektormodus.

100 einzeln aufgenommenen Spektren wurden von jeder Probe gesammelt. Die Gesamtbeschleunigungsspannung betrug 25 kV. Die XMASS 5.0 und MSBiotools Software Pakete der Hersteller wurden zur Datenverarbeitung verwendet. Für die Kalibrierung der tryptisch gespaltenen Proteinproben, bekannten autoproteolytischen Produkte von Trypsin wurde die interne Kalibrierung verwendet.

Datenbank

Zur Proteinidentifizierung humaner Proteinsequenzen wurden in der SwissProt Datenbank (www.expasy.ch/) und PROWL (Rockefeller University) Datenbanken (www.prowl.rockefeller.edu/) gesucht mittels der Mascot Software (Matrix Science Ltd., U. K.). Der Wahrscheinlichkeitswert kalkuliert durch die Software wurde als Kriterium zur korrekten Identifizierung verwendet. Ein weiteres Kriterium wurde angewandt, nämlich, dass ein Minimum von drei Peptiden benötigt wurde, um der höchsten eingetragenen Sequenz zu entsprechen, im Vergleich zum nächsten nicht-verwandten Kandidaten. Eine Massenabweichung von 30 ppm wurde toleriert in der Suche, und für Proteine isoliert aus 2-DE, wurde die Oxidation von Methioninresten als mögliche Modifikation berücksichtigt.

Generierung von MPI

Für die Generierung von MPIs, wurden alle möglichen Suchergebnisse von m/z-Werten in den Datenbanken umgewandelt mit Hilfe der Software "m/z-freeware edition" (Proteometrics, LLC) (www.canada.proteometrics.com/). Die theoretische enzymatische Spaltung der Datenbank-Proteine wurde mit Hilfe der GPMAW software version 3.15 (Lighthouse data) (www.welcome.to/gpmaw) vorgenommen.

Ergebnisse

Vergleich der MALDI-TOF-MS von rekombinanten Proteinen und ihre entsprechenden nativen Proteine von 2D Gelen.

Für den Vergleich durch Massenspektrometrie wurden 5 Proteine (Aconitat hydrogenase, Pyruvat kinase, GTP binding protein, Tubulin &agr;-1 chain und Tubulin &bgr;-3 chain) welche vorher auf 2-DE Gelen identifiziert und analysiert wurden (3, 6) durch MS aus dem (oligofingerprinted) UNIgene/UNIprotein-Satz [Cahill et al., 2000] ausgewählt und in E. coli exprimiert. Die rekombinanten Proteine wurden exprimiert, gereinigt und durch MS analysiert.

Die Spektren der rekombinant exprimierten Proteine und der homologen Proteine aus 2-DE Gelen (wie gezeigt in 3 (human GAPDH) und 6 (Human-Pyruvat-Kinase)) wurden verglichen.

Um den Nutzen dieses Ansatzes zu überprüfen, wurden Übereinstimmung und MPI-Wert berechnet, beides in Prozent. Der Prozentsatz und die Übereinstimmung wurden bestimmt durch den Vergleich der tatsächlich identifizierten Peaks mit der Anzahl aller theoretisch möglichen Peaks, nach in silico Digerierung. Der MPI-Wert ist die Zahl der identischen Peaks, von den homologen und heterologen Proteinen, basierend auf der absoluten Zahl der Peaks, die durch das heterologe Protein erzielt wurden, ausgedrückt als ein Prozentsatz.

In den 6A (native, homologe 2-D Gel) und 6B (rekombinant exprimiert, heterologe) sind die Peaks durch ihre Größe gekennzeichnet, welche in den Spektren durch die rekombinanten Proteine repräsentiert werden (z.B.. Pyruvatkinase) und von den nativen Proteinen aus dem 2-D. Beide Spektren wurden aus der PROWL Datenbank erstellt. Die Datenbanktreffer und die in beiden enthaltenen Peaks, die rekombinanten und 2-D Gel-Proteine sind in Tabelle 1 enthalten. 11 Peaks wurden aus dem rekombinanten Pyruvatkinase-Protein erzielt, was mit den Peaks aus der homologen Form der Pyruvatkinase (MPI) übereinstimmte. 10 Peaks stammten aus dem rekombinanten Protein, alle 10 wurden in den 54 theoretisch möglichen Peaks aus der PROWL Datenbank für Pyruvatkinase gefunden (Tabelle 1). Daher war die Übereinstimmung 18.5%. Für das homologe Pyruvatkinase-Protein wurden 12 von 54 möglichen Ergebnissen gefunden, resultierend in einer Übereinntimmung von 22.5% wie gezeigt in Tabelle 2. Der MPI Wert von Pyruvatkinase war 42.0%. Die Durchschnittsübereinstimmung von rekombinanten Proteinen lag bei 26.6%, und die Durchschnittsübereinstimmung von homologen Proteinen lag bei 31.9% (Tabelle 2). Der Durchschnitts-MPI-Wert von allen 5 Proteinen lag bei 30.62%.

Basierend auf diesen Ergebnissen kann ein MPI-Wert von ungefähr 30% als ausreichend für die Identifikation von Proteinen von 2D Gelen oder anderen Quellen angenommen werden.

Tabelle 1: Monoisotopische Molekularmassen von Peptidionen gefunden in den Peptid-maps der rekombinanten und nativen Pyruvatkinase (dargestellt in Tabelle 6) die die berechneten Massen für das Protein entsprechen.
Tabelle 2: Zahl der entsprechenden Peptidmassen von rekombinanten und nativen Proteinen im Verhältnis zum theoretischen Digerieren (complete digest). Zusätzlich werden die Zahl der entsprechenden Gewichte der nativen und rekombinanten Proteinen dargestellt.

Der Effekt der Oxidation von homologen Proteinen von 2DE Gelen und die Folge für die MPI.

Aufgrund der langen Markierungsdauer von 2D Gelen mit Coomassie G250 können homologe Proteine oxidiert werden, insbesonders Methionin. Allgemein sind reckmbinant exprimierte Proteine konzentrierter und benötigen kürzere Markierungszeiten. Diese Proteine sind weniger oxidiert. Als Folge sollte ein Peptid, das eine oxidierte Aminosäure enthält, ein höheres Gewicht aufweisen. Zum Beispiel, wenn Methionin oxidiert, erhält man einen Zuwachs von 16.00 m/z Einheiten im monoisotopischen Zustand. Dies entspricht der Hinzufügung eines Sauerstoff-Moleküls. Zum Beispiel enthält jedes der Peptide 6, 19 und 35 von tryptisch digerierter Tubulin &bgr;-3 Kette ein Methionin. Vergleicht man das Spektrum des homologen Protein mit dem des rekombinant exprimierten Tubulin &bgr;-3 Kette, weisen die Peaks 6, 19, 35 des homologen Protein eine präzise Zunahme von 16 Da auf (siehe Tabelle 3). Diese Differenz von 16 Da könnte das Ergebnis von Problemen bei der Identifikation unbekannter Proteine von 2D Gelen sein, wenn man sie mit einer Datenbank vergleicht, die auf Spektren heterolog exprimierter Proteine beruht.

Modifiziert man die MPI-Datenbank durch die Hinzufügung solcher Werte von oxidierten Peptiden, wird die Zahl der identischen Peaks verbessert, und dies verbessert zudem die Wahrscheinlichkeit korrekter Bestimmung. Für Tubulin &bgr;-3 Kette wird solch eine Datenbankmodifikation in der Lage sein, die Zahl der Peaks, die zur Bestimmung des MPI-Werts erforderlich sind, von 2 auf 5 zu erhöhen; im Ergebnis eine deutliche Verbesserung der Verläßlichkeit der MPI-Werte.

Tabelle 3: Tryptisches Peptid aus nativen Tubulin &bgr;-3 Kette, detektiert mit m/z Werten korrespondierend zur Oxidation eines Methioninrestes (+16 Da)

Die Verteilung der m/z Werte.

Die Verteilung der m/z Werte ist wichtig für die Bestimmung der MPIs. Im Allgemeinen wird der Wert der MPIs (%) berechnet nach der Anzahl von Peaks in einem Spektrum innerhalb des Bereiches 800 Da bis 2.000 Da. Dieser Bereich wurde ausgewählt, weil der minimale und maximale Detektionsbereich im Mittel 600-2.750 Da ist (siehe 8: oberes Panel), hinsichtlich den homologen und 600-4500 Da für die heterologen Proteine (siehe 8: unteres Panel). Beim systematischen Vergleich beider Spektren, fallen bestimmte Peptide heraus. Daher wurde der erwähnte Schwellenwert zur Berechnung des MPI-Werts ausgewählt, da dies eine geringere Datenmenge zur Folge hat und ein schnelleres Suchverfahren ermöglicht (siehe 1 und den Überblick, 9).

Einfluss der Expression der verschiedenen Wirte auf die MPIs

Die Erzeugung einer Datenbank von MPIs kann heterolog exprimierte Proteine von verschiedenen Wirten enthalten. Daher ist es notwendig zu analysieren, inwieweit die Expression von unterschiedlichen Wirten Folgen für das Peptid-Spektrum hat. cDNA Expressionsbibliotheken werden hauptsächlich in E. coli generiert (Bussow, 1998) und, lediglich kürzlich, in Hefe-Expressionsbibliotheken, wie beschrieben (Lueking, 2000). Hier wurden E. coli und die Hefe Pichia pastoris als Referenz-Expressions-Wirte verwendet. Humanes GAPDH wurde in beiden Wirten mit dem Dual Expressionsvektor exprimiert, (Lueking et al., 2000) geeignet für P. pastoris (siehe Tabelle 7A) und E. coli (siehe Tabelle 7B). 22 identische Peaks wurden aus einer Gesamtzahl von 50 Peaks aus GAPDH (exprimiert in E. coli) gefunden, und 56 Peaks bei Expression in P. pastoris. Beim Vergleich dieser zu den 33 theoretisch möglichen Peaks, waren 12 und 14 Peaks jeweils identisch. Dies entspricht einer Übereinstimmung von 36% und 42%. Diese erlaubt die Feststellung, daß MPI-Werte unabhängig vom Expressions-Wirt ermittelt werden können. Damit wird die Möglichkeit eröffnet, verschiedene Expressionssysteme und Bibliotheken zu nutzen.

Diese Daten liefern den Beweis für den Nutzen der vorliegenden Erfindung zur Verbesserung der Identifikation von Proteinen, z.B. von 2D Gelen, mit Hilfe der Verwendung von MPI von rekombinant exprimierten Proteinen. Die obigen Daten qualifizieren die vorliegende Erfindung für eine hohe Versuchszahl, und möglicherweise, für eine vollautomatisierte Methode zur Proteinidentifizierung mittels Massenspektrometrie.

Mit den bisherigen Verfahren war es lediglich möglich, durch MALDI-MS ungefähr 50% Übereinstimmung bei der Proteinindentifikation zu erzielen. Es gibt eine Reihe von Gründen dafür, insbesondere weil durch die Redundanz des genetischen Codes inkorrekte Aminosäuresequenzen ermittelt werden. Andere Gründe können darin liegen, daß das Protein in den durchsuchten Datenbanken fehlt, oder daß Sequenzfehler auftauchen oder kontaminierte Sequenzen in den Datenbanken existieren.

Deshalb wird ein Verfahren beschrieben, mit dem eine Verbesserung durch die Erstellung von Massenspektrometrie-Fingerprints von Proteinen wie rekombinanten Proteinen erreicht wird. Es wurde ebenfalls demonstriert, daß eine hohe Versuchszahl und eine hohe Verläßlichkeit bei der Identifikation von Proteinen durch Massenspektrometrie möglich ist. Das Verfahren der Erfindung ermöglicht eine hohe Versuchszahl oder automatische Produktion von MPI-Werten, einschließlich der Standardisierung der Verfahren zur Probenvorbereitung (für eine allgemeine Übersicht des Verfahrens siehe 1, 2, 4 und 9).

Nichtsdestotrotz sind für die Erstellung einer solchen MPI Datenbank folgende Punkte zu beachten. Für die Identifikation eines bekannten oder bisher unbekannten Protein wurde ein MPI-Mindestwert von 15% als ausreichend bestimmt. Dies entspricht ungefähr 5 Peaks, die mit den Peaks des homologen Proteins übereinstimmen. Basierend auf den Ergebnissen, die in Tabelle 8 dargestellt werden, wurde festgestellt, daß diese ausgewählten Peptide im Größenbereich von 800 Da bis zu einem Maximum von 4.500, vorzugsweise 2.750, wiederum vorzugsweise 2.000 Da liegen sollten. Falls die Peaks kleiner als 800 Da sind, ergeben sich die Peaks zumeist aufgrund einzelner Aminosäuren und kleinerer Peptide und werden nicht zur Generierung des MPI verwendet. Zusätzlich, wie aus 8 ersichtlich, tendieren erhaltene Peptide aus rekombinanten Proteinen in den höheren m/z Bereich, verglichen mit den gleichen Proteinen aus 2-D Gelen. Es wird vermutet, dass solche Peaks das Ergebnis aus unvollständiger Trypsin-Spaltung aufgrund der hohen Proteinkonzentration der rekombinanten Proteine sind. Daher sollten Peaks in dem m/z Bereich über 2.750 Da, insbesondere vorzugsweise über 2.000 Da, aus der Erstellung von MPI in dieser Datenbank ausgeschlossen werden.

Vorzugsweise sollten die relativen Intensitätseinheiten korrekt ausgewählt werden, indem nur klar definierte Peaks oberhalb des Hintergrundes ausgesucht werden. Es wird ebenfalls bevorzugt, einen internen Maßstab anzulegen, etwa die Autoverdauungs-Peaks von Trypsin, um ihn für die automatische Kalibrierung der Software zu verwenden, und um festzustellen, ob das Spektrum zur Messung geeignet ist.

Die MPI Datenbank wird ebenfalls Informationen zu den erwarteten Peptidmassenveränderungen enthalten, die aus den Proteinmodifikationen etwa durch Oxidation oder durch unvollständige Trypsin-Digerierung entstehen. Ebenso berücksichtigt werden bekannte Wechselfaktoren wie die unvollständige Oxidation von in Peptiden vorhandenem Methionin. Die Aufnahme derartiger Informationen in die MPI-Datenbank erleichtert die verbesserte Peptididentifikation.

Wie aus der Tabelle 1 ersichtlich ist, wurden Peptide ermittelt, die nicht in den theoretischen Peak-Listen enthalten waren. Dennoch hat dies nicht die Erstellung von nützlichen MPI-Werten verhindert.

Diese zusätzlichen Peaks können durch die Präsenz von vorzeitig terminierten Proteinen erklärt werden, die durch Unterschiede bei der codon usage hervorgerufen worden sein könnte, als das Protein durch verschiedene Expressionssysteme exprimiert wurde. Andere Möglichkeiten schließen die Degradierung der Proteine während der Lagerung oder ihre proteolytische Spaltung durch kontaminierte Wirtsproteasen ein.

Ebenfalls, wie gezeigt, waren nicht alle verwendeten rekombinanten Proteine in voller Länge vorhanden, dennoch wurden verwendbare MPI ermittelt. Dies impliziert, dass MPI aus Genprodukten hergestellt werden kann, die nicht in voller Länge vorhanden sind, wie öfters in cDNA Expressionsbibliotheken. Die Bestimmungskriterien sollten also keine Auswirkung auf die Erstellung der MPI-Werte aus den meisten rekombinanten Systemen haben, weil Gene, die entweder random-primed oder oroligo-dT-primedcDNA libraries Proteine enthalten sollten, die bei Spaltung Peaks in diesem Bereich liefern sollten.

Schlußfolgerung: Die Herstellung der MPI-Datenbank kann eine breite Anwendung finden in der verbesserten Proteinidentifizierung aus vielen Quellen, beispielsweise aus 2D Gelen, rekombinanten Proteinen, interagierenden Proteinen und sämtlichen Proteinkomplexen.

Zitierte Literatur:

  • Anderson L, Seilhamer J. (1997), Electrophoresis 18 : 533-537.
  • Ausubel et al., (1989), Current Protocols in Molecular Biology, Green Publishing Associates und Wiley Interscience, N. Y.
  • Bussow, K.; Cahill, D. J.; Nietfeld, W.; Bancroft, D.; Scherzinger, E.; Lehrach, H.; Walter; G. (1998) Nucl. Acids. Res., 26, 5007-5008.
  • Cahill et al. (2000), "Proteomes : From Protein Sequence to Function" in "Bridging Genomics to Proteomics", 1-17, Bios Publishing Com.
  • Cahill (2000), Proteomics : A Trends Guide, 47-51.
  • Eickhoff et al. (2000), Genome Research 10 : 1230-1240.
  • Gobom et al. (2001), Anal. Chem. 73 : 434-438.
  • Harlow und Lane (1988), "Antibodies, A Laboratory Manual", CSH Press, Cold Spring Harbor, USA,.
  • Herwig, R., Poustka, A., Mutter, C., Bull, C., Lehrach, H. und O'Brien, J (1999), Large-scale clustering of cDNA-Fingerprinting data. Genome Research 1093-1105.
  • Lueking, A.; Holz, C.; Gotthold, C.; Lehrach, H.; Cahill, D. J. (2000), Protein Expr. Purif., 20, 372-378.
  • Meier-Ewert, S., Lange, J., Gerst, H., Herwig, R., Schmitt, A., Freund, J., Elge, T., Mott, R., Hermann, B. und Lehrach, H. (1998) Nucl. Acids Res. 26 : 2216-2223.
  • Poustka, AJ., Herwig, R., Krause, A., Hennig, S., Meier-Ewert, S. und Lehrach, H. (1999), Genomics 59 : 122-133.
  • Radelof, U., Hennig, S., Seranski, P., Steinfath, M., Ramser, J., Reinhardt, R., Poustka, A., Francis, F. und Lehrach, H. (1998), Nucl. Acids Res. 26 : 5358-5364.
  • Sambrook et al. (1989), Molecular Cloning A Laboratory Manual, Cold Spring Harbor Laboratory N. Y.
  • Schuerenberg, S., C. Luebbert, H. Eickhoff, M. Kalkum, H. Lehrach, und E. Nordhoff (2000), Prestructured MALDI-MS Sample Supports, Anal. Chem. A 72 3436-3442.


Anspruch[de]
Verfahren zum Identifizieren und/oder Charakterisieren eines (Poly)peptids umfassend:

(a) Analysieren eines Peptidmaps des genannten (Poly)peptids, wobei der Peptidmap mindestens 1 Peptid enthält, und seine Peptid primäre Fingerprintstruktur durch Massenspektrometrie; und

(b) Vergleichen der erhaltenen Daten aus Schritt (a) mit einer Referenz(Poly)peptid-Datenbank, besagte Datenbank enthält massenspektrometrische Daten von Peptidmaps, wobei ein Peptidmap mindestens 1 Peptid enthält und Peptid primäre Fingerprintstrukturdaten von dem/den Peptid(en) aus der Peptidmap, eines (Poly)peptids oder einer Vielzahl von (Poly)peptiden.
Verfahren nach Anspruch 1, wobei die erhaltenen Daten aus Schritt (a) gespeichert sind als Listen von Ziffernummern entsprechend den gemessenen Molekular- oder Fragmentionmassen oder Masse/Ladungsverhältnissen. Verfahren nach Anspruch 1 oder 2, wobei genannte Referenz-(Poly)peptid-Datenbank in Schritt (b) hergestellt ist durch die Schritte:

(ba) Präparieren einer (Poly)peptid-Probe charakteristisch für eine Spezies, ein Gewebe, ein Entwicklungsstadium, ein spezifisches Alter, ein spezifischer Zeitpunkt einer Zelle, eine Organelle, ein Geschlecht, ein Krankheitsstadium, ein Mikroorganismus, eine Gewebekultur einer Zelllinie, ein Virus, ein Bakteriophage, ein Organismus, eine Pflanze, ein Antikörper, eine Antikörperbibliothek, ein Proteinkomplex oder interagierende Proteine;

(bb) Unterwerfen besagter (Poly)peptid-Probe einer ein- oder zweidimensionalen Gelelektrophorese,

(bc) Ausschneiden der (Poly)peptide aus dem Gel,

(bd) Fragmentieren besagter (Poly)peptide,

(be) Analysieren der erhaltenen Fragmente aus Schritt (bd) durch Massenspektrometerie; und

(bf) Speichern der erhaltenen Daten aus Schritt (be) in Kombination mit der Quelle der entsprechenden (Poly)peptide in einer Datenbank.
Verfahren nach Anspruch 1 oder 2, wobei genannte Referenz-(Poly)peptid-Datenbank in Schritt (b) hergestellt ist durch die Schritte:

(ba) Präparieren einer (Poly)peptid-Probe charakteristisch für eine Spezies, ein Gewebe, ein Entwicklungsstadium, ein spezifisches Alter, ein spezifischer Zeitpunkt einer Zelle, eine Organelle, ein Geschlecht, ein Krankheitsstadium, ein Mikroorganismus, eine Gewebekultur einer Zelllinie, ein Virus, ein Bakteriophage, ein Organismus, eine Pflanze, ein Antikörper, eine Antikörperbibliothek, ein Proteinkomplex oder interagierende Proteine;

(bb) Unterwerfen besagter (Poly)peptid-Probe einer ein- oder multidimensionalen chromatographischen Trennung,

(bc) Fragmentieren der besagten getrennten (Poly)peptide,

(bd) Analysieren der erhaltenen Fragmente aus Schritt (bc) durch Massenspektrometerie; und

(be) Speichern der erhaltenen Daten aus Schritt (be) in Kombination mit der Quelle der entsprechenden (Poly)peptide in einer Datenbank.
Verfahren nach Anspruch 1 oder 2, wobei genannte Referenz-(Poly)peptid-Datenbank in Schritt (b) hergestellt ist durch die Schritte:

(ba) Präparieren einer cDNA oder genomischen DNA-Bibliothek charakteristisch für eine Spezies, ein Gewebe, ein Entwicklungsstadium, eine Zelle, eine Organelle, ein Geschlecht, ein Krankheitsstadium, ein Mikroorganismus, eine Gewebekultur einer Zelllinie, ein Virus, ein Bakteriophage, ein Organismus, eine Pflanze, ein Antikörper, eine Antikörperbibliothek, ein Proteinkomplex oder interagierende Proteine;

(bb) Exprimieren der erhaltenen cDNA oder genomischen DNA-Bibliothek aus Schritt (ba),

(bc) Isolieren der erhaltenen (Poly)peptide aus Schritt (bb),

(bd) Fragmentieren besagter (Poly)peptide,

(be) Analysieren der erhaltenen Fragmente aus Schritt (bd) durch Massenspektrometerie; und

(bf) Speichern der erhaltenen Daten aus Schritt (be) in Kombination mit der Quelle der entsprechenden (Poly)peptide in einer Datenbank.
Verfahren nach einem der Ansprüche 1 bis 5, wobei die genannte Referenz(Poly)peptid-Datenbank generiert ist aus (Poly)peptide, isoliert aus ihren naturgemäßen Kontext. Verfahren nach einem der Ansprüche 1 bis 6, wobei das zu identifizierende oder zu charakterisierende besagte (Poly)peptid ein rekombinant hergestelltes (Poly)peptid ist. Verfahren nach Anspruch 7, wobei das besagte rekombinant hergestellte (Poly)peptid in einer (Poly)peptid-Bibliothek enthalten ist, besagte Bibliothek ist hergestellt durch Expression einer Nukleinsäurebibliothek enthaltend eine Nukleinsäure kodierend für das besagte (Poly)peptid. Verfahren nach einem der Ansprüche 1 bis 8, wobei das zu identifizierende oder zu charakterisierende besagte (Poly)peptid Teil eines Proteinkomplexes ist. Verfahren nach einem der Ansprüche 1 bis 9, wobei das zu identifizierende oder zu charakterisierende besagte (Poly)peptid mit anderen (Poly)peptiden interagiert. Verfahren nach einem der Ansprüche 1 bis 10, wobei das zu identifizierende oder zu charakterisierende besagte (Poly)peptid in einem Lysat vorhanden ist. Verfahren nach einem der Ansprüche 1 bis 11, wobei das besagte massenspektrometrische Verfahren MALDI-MS, MALDI-MS/MS, Elektrosprayionisation (ESI), Q-TOF oder post-source decay (PSD) ist. Verfahren nach einem der Ansprüche 8 bis 12, wobei besagte Nukleinsäurebibliothek kodiert für (Poly)peptide als Fusionsproteine. Verfahren nach Anspruch 13, wobei besagte Fusionsproteine einen tag enthalten. Verfahren nach Anspruch 14, wobei der besagte tag ein His-tag ist. Verfahren nach einem der Ansprüche 8 bis 15, wobei die Expression induzierbar ist. Verfahren nach einem der Ansprüche 8 bis 16, wobei besagtes Nukleinsäuremolekül cDNA ist. Verfahren nach einem der Ansprüche 1 bis 17, wobei besagte Analyse in Schritt (a), zusätzlich oder alternativ zur Massenspektrometrie, durch Oberflächen Plasmonresonanz ausgeführt wird. Verfahren nach Anspruch 18, wobei die besagte Oberflächen Plasmonresonanz BIAcore oder SELDI ist. Verfahren nach einem der Ansprüche 8 bis 19, wobei vor der Expression der besagten Nukleinsäurebibliothek, die folgenden Schritte durchgeführt werden:

(aa) Anreicherung besagter Nukleinsäuremoleküle,

(ab) reguläres Anordnen besagter angereicherter Nukleinsäuremoleküle; und, gegebenenfalls (ac) Hybridisieren der regulär angeordneten Nukleinsäuremoleküle mit einer Vielzahl von Oligonukleotiden;

(ad) Identifizieren von Nukleinsäuremolekülen, die mit dem gleichen Satz von Oligonukleotiden hybridisieren; und

(ae) reguläres Neuanordnen pro Satz von Oligonukleotiden einer Gattung von Nukleinsäuremolekülen.
Verfahren nach Anspruch 20, wobei die Anreicherung in Schritt (aa) durch PCR ausgeführt wird. Verfahren nach einem der Ansprüche 8 bis 19, wobei nach Expression der besagten Nukleinsäurebibliothek, die folgenden Schritte in Verbindung mit Schritt (b) durchgeführt werden:

(bi) Identifizieren von (Poly)peptiden, welche auf der Basis der vergleichenden Daten, einen eindeutigen minimalen Protein-Identifikator aufweisen.

(bii) Neuanordnen der Klone, die identifizierte (Poly)peptide in Schritt (bi) regulär exprimieren in einen im Wesentlichen nicht-redundanten Satz.
Verfahren nach einem der Ansprüche 20 bis 22, wobei das besagte reguläre Anordnen und/oder das besagte reguläre Neuanordnen auf einem festen Träger ausgeführt wird. Verfahren nach Anspruch 23, wobei besagter fester Träger ein Chip, ein Glasträger, ein Filter, eine Membran, ein magnetisches Bead, ein Silica Wafer, Metall, ein massenspektrometrisches Target oder eine Matrix ist. Verfahren nach einem der Ansprüche 20 bis 24, wobei das besagte reguläre Anordnen und/oder das besagte Neuanordnen auf einer porösen Oberfläche ausgeführt wird. Verfahren nach einem der Ansprüche 20 bis 24, wobei das besagte reguläre Anordnen und/oder das besagte Neuanordnen auf einer nicht-porösen Oberfläche ausgeführt wird. Verfahren nach einem der Ansprüche 20 bis 26, wobei das besagte reguläre Anordnen und/oder das besagte Neuanordnen durch ein automatisiertes Gerät durchgeführt wird. Verfahren nach einem der Ansprüche 20 bis 27, wobei besagte Vielzahl von Oligonukleotiden mindestens zwei verschiedene Oligonukleotide umfasst. Verfahren nach einem der Ansprüche 20 bis 28, wobei vor dem Schritt (aa), die folgenden Schritte durchgeführt werden:

(aa') reverses Transkribieren von mRNA aus einer Spezies, einem Gewebe, einem Entwicklungsstadium, einer Zelle, einer Organelle, einem Geschlecht, einem Krankheitsstadium, einem Mikroorganismus, einer Gewebekultur einer Zelllinie, einem Virus, einem Bakteriophage, einem Organismus oder einer Pflanze in cDNA;

(aa'') Klonieren der erhaltenen cDNA aus Schritt (aa') oder genomischer DNA in einen Expressionsvektor.
Verfahren nach einem der Ansprüche 14 bis 29, wobei die folgenden weiteren Schritte durchgeführt werden:

(ai) nach Expression des besagten (Poly)peptids, isolieren des exprimieretn Fusionsproteins mittels des tags;

(aii) Fragmentieren des Fusionsproteins;

(aiii) Analysieren der erhaltenen Fragmente aus Schritt (aii) durch Massenspektrometrie; und

(aiv) Speichern der erhaltenen Daten aus Schritt (aiii) in einer Datenbank.
Verfahren nach Anspruch 30, wobei besagte Isolation durch Metall-Chelat Affinitätsreinigung durchgeführt wird. Verfahren nach Anspruch 31, wobei besagte Metall-Chelat Affinitätsreinigung Ni-NTA Liganden immobilisert auf magnetische Partikel verwendet. Verfahren nach einem der Ansprüche 20 bis 32 weiter umfassend:

(af) Hybridisieren genomischer DNA, cDNA, PNA oder RNA Moleküle mit gegebenenfalls neuangeordneten Nukleinsäuremolekülen aus Schritt (ae); und

(ag) Identifizieren genomischer DNA, cDNA, PNA oder RNA Moleküle, die mit den gegebenenfalls neuangeordneten Nukleinsäuremolekülen auf der Anordnung.
Verfahren nach einem der Ansprüche 8 bis 33, wobei die Expression in Prokaryonten ausgeführt wird. Verfahren nach Anspruch 34, wobei die Prokaryonten Bakterien sind. Verfahren nach Anspruch 35, wobei die besagten Bakterien E. coli sind. Verfahren nach einem der Ansprüche 8 bis 33, wobei die Expression in nicht-humanen Eukaryonten oder eukaryotischen Zellen ausgeführt wird. Verfahren nach Anspruch 37, wobei besagte nicht-humane Eukaryonten Hefen sind. Verfahren nach Anspruch 38, wobei besagte Hefe der Spezies Pichia pastoris angehört. Verfahren nach Anspruch 37, wobei besagte eukaryontische Zelle Säugetier- oder Insektenzellen sind. Verfahren nach einem der Ansprüche 1 bis 40, wobei besagte Peptide ein Molekulargewicht im Bereich von 600 bis 4500 Dalton aufweisen. Verfahren nach Anspruch 41, wobei besagte Peptide ein Molekulargewicht im Bereich von 600 bis 2750 Dalton aufweisen. Verfahren nach einem der Ansprüche 1 bis 42, wobei besagtes Vergleichen in Schritt (b) eine Normalisierung für chemische oder post-translationale Modifikationen enthält. Verfahren nach Anspruch 43, wobei besagte chemische Modifikation die Oxidation ist.






IPC
A Täglicher Lebensbedarf
B Arbeitsverfahren; Transportieren
C Chemie; Hüttenwesen
D Textilien; Papier
E Bauwesen; Erdbohren; Bergbau
F Maschinenbau; Beleuchtung; Heizung; Waffen; Sprengen
G Physik
H Elektrotechnik

Anmelder
Datum

Patentrecherche

Patent Zeichnungen (PDF)

Copyright © 2008 Patent-De Alle Rechte vorbehalten. eMail: info@patent-de.com