A parkettafájl egy hdfs-fájl, amelynek tartalmaznia kell a fájl metaadatait. Ez lehetővé teszi az oszlopok több fájlra való felosztását, valamint azt, hogy egyetlen metaadatfájl több parkettafájlra hivatkozzon. A metaadatok tartalmazzák a fájlban tárolt adatok sémáját.
Hogyan hozhatok létre sémát egy parketta fájlhoz?
A parkettaminta adatok sémájának létrehozásához tegye a következőket:
- Jelentkezzen be a Haddop/Hive mezőbe.
- A következőképpen állítja elő a sémát az stdoutban: -------------- [~] parquet-tools séma abc.parquet. üzenet hive_schema { …
- Másolja ezt a sémát egy fájlba a következővel:. parkett/. par kiterjesztése.
Támogatja a parketta a séma fejlődését?
Sémaegyesítés
A protokollpufferhez, az Avro-hoz és a takarékossághoz hasonlóan Parquet is támogatja a sémafejlődést A felhasználók egy egyszerű sémával kezdhetnek, és fokozatosan további oszlopokat adhatnak hozzá a sémát szükség szerint. Ily módon a felhasználók több, különböző, de kölcsönösen kompatibilis sémával rendelkező Parquet fájlhoz juthatnak.
Vannak adattípusok a parkettareszelőknek?
A parkettafájl adattípusai olyan átalakítási adattípusokhoz vannak leképezve, amelyeket az Adatintegrációs szolgáltatás az adatok platformok közötti mozgatására használ. A Parquet fájl olvasásához vagy írásához megadott Parquet sémának kisbetűsnek kell lennie.
Mi a parkettareszelő szerkezete?
A parkettafájlok sorcsoportokból, fejlécből és láblécből állnak Minden sorcsoport ugyanazon oszlopokból származó adatokat tartalmaz. Minden sorcsoportban ugyanazok az oszlopok vannak tárolva: Ez a struktúra jól optimalizált mind a gyors lekérdezési teljesítmény, mind az alacsony I/O (minimalizálva a vizsgált adatok mennyiségét).