- Artykuł
W tym artykule opisano sposób konfigurowania formatu tekstu rozdzielanego w potoku danych usługi Data Factory w usłudze Microsoft Fabric.
Ważne
Usługa Microsoft Fabric jest obecnie dostępna w wersji zapoznawczej.Te informacje odnoszą się do produktu w wersji wstępnej, który może zostać znacząco zmodyfikowany przed jego wydaniem. Firma Microsoft nie udziela żadnych gwarancji, wyrażonych ani domniemanych w odniesieniu do informacji podanych tutaj. Zapoznaj się z dokumentacją Azure Data Factory dotyczącą usługi na platformie Azure.
Obsługiwane funkcje
Format tekstu rozdzielanego jest obsługiwany w przypadku następujących działań i łączników jako źródła i miejsca docelowego.
Kategoria | Łącznik/działanie |
---|---|
Obsługiwany łącznik | Amazon S3 |
Azure Blob Storage | |
Usługa Azure Data Lake Storage 1. generacji | |
Azure Data Lake Storage Gen2 | |
Google Cloud Storage | |
HTTP | |
Obsługiwane działanie | działanie Kopiuj |
działanie Lookup | |
Działanie GetMetadata | |
Działanie usuwania |
Rozdzielany format tekstu w działaniu kopiowania
Aby skonfigurować format tekstu rozdzielanego, wybierz połączenie w źródle lub miejscu docelowym działania kopiowania potoku danych, a następnie wybierz pozycję RozdzielanyTekst na liście rozwijanej Format pliku. Wybierz pozycję Ustawienia , aby uzyskać dalszą konfigurację tego formatu.
Format tekstu rozdzielanego jako źródło
Po wybraniu pozycji Ustawienia w sekcji Format pliku w oknie dialogowym Ustawienia formatu pliku zostaną wyświetlone następujące właściwości.
Typ kompresji: koder kompresji używany do odczytywania rozdzielonych plików tekstowych.Możesz wybrać spośród typów None, bzip2, gzip, deflate, ZipDeflate, TarGzip lub tar na liście rozwijanej.
Jeśli wybierzesz opcję ZipDeflate jako typ kompresji, zachowaj nazwę pliku zip jako folder zostanie wyświetlony w obszarze Ustawienia zaawansowane na karcie Źródło .
- Zachowaj nazwę pliku zip jako folder: wskazuje, czy zachować nazwę źródłowego pliku zip jako strukturę folderów podczas kopiowania.
- Jeśli to pole jest zaznaczone (wartość domyślna), usługa zapisuje rozpakowane pliki do
<specified file path>/<folder named as source zip file>/
. - Jeśli to pole jest niezaznaczone, usługa zapisuje rozpakowane pliki bezpośrednio do
<specified file path>
. Upewnij się, że nie masz zduplikowanych nazw plików w różnych źródłowych plikach zip, aby uniknąć wyścigów ani nieoczekiwanych zachowań.
- Jeśli to pole jest zaznaczone (wartość domyślna), usługa zapisuje rozpakowane pliki do
W przypadku wybrania opcji TarGzip/tar jako typu kompresji zachowaj nazwę pliku kompresji jako folder zostanie wyświetlony w obszarze Ustawienia zaawansowane na karcie Źródło .
- Zachowaj nazwę pliku kompresji jako folder: wskazuje, czy zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów podczas kopiowania.
- Jeśli to pole jest zaznaczone (wartość domyślna), usługa zapisuje dekompresowane pliki do
<specified file path>/<folder named as source compressed file>/
. - Jeśli to pole jest niezaznaczone, usługa zapisuje dekompresowane pliki bezpośrednio do
<specified file path>
. Upewnij się, że nie masz zduplikowanych nazw plików w różnych źródłowych plikach zip, aby uniknąć wyścigów ani nieoczekiwanych zachowań.
- Jeśli to pole jest zaznaczone (wartość domyślna), usługa zapisuje dekompresowane pliki do
- Zachowaj nazwę pliku zip jako folder: wskazuje, czy zachować nazwę źródłowego pliku zip jako strukturę folderów podczas kopiowania.
Poziom kompresji: określ współczynnik kompresji po wybraniu typu kompresji. Możesz wybrać jedną z opcji Optymalna lub Najszybsza.
- Najszybsza: operacja kompresji powinna zostać ukończona tak szybko, jak to możliwe, nawet jeśli wynikowy plik nie jest optymalnie skompresowany.
- Optymalny: operacja kompresji powinna być optymalnie skompresowana, nawet jeśli operacja trwa dłużej. Aby uzyskać więcej informacji, zobacz temat Poziom kompresji.
Ogranicznik kolumn: znaki używane do oddzielania kolumn w pliku. Wartość domyślna to przecinek (
,
).Ogranicznik wierszy: określ znak używany do oddzielania wierszy w pliku. Dozwolony jest tylko jeden znak. Wartość domyślna to kanał informacyjny
\n
wiersza .Kodowanie: typ kodowania używany do odczytu/zapisu plików testowych. Wartość domyślna to UTF-8.
Znak ucieczki: pojedynczy znak do ucieczki cudzysłowów wewnątrz wartości cytowanej. Wartość domyślna to ukośnik
\
odwrotny. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w którym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników.Znak cudzysłowu: pojedynczy znak do cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Wartość domyślna to podwójne cudzysłowy
"
. Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma znaku cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie.Pierwszy wiersz jako nagłówek: określa, czy należy traktować/tworzyć pierwszy wiersz jako wiersz nagłówka z nazwami kolumn. Dozwolone wartości są zaznaczone i niezaznaczone (wartość domyślna). Gdy pierwszy wiersz jako nagłówek jest niezaznaczony, zwróć uwagę na podgląd danych interfejsu użytkownika i dane wyjściowe działania wyszukiwania automatycznie generują nazwy kolumn jako Prop_{n} (począwszy od 0), działanie kopiowania wymaga jawnego mapowania ze źródła na miejsce docelowe i lokalizuje kolumny według porządkowych (począwszy od 1).
Wartość null: określa reprezentację ciągu wartości null. Wartość domyślna to pusty ciąg.
W obszarze Ustawienia zaawansowane na karcie Źródło są wyświetlane dalsze właściwości powiązane z formatem tekstu rozdzielanego.
- Pomiń liczbę wierszy: wskazuje liczbę brakliwych wierszy do pominięcia podczas odczytywania danych z plików wejściowych. Jeśli określono wartość Pomiń liczbę wierszy i Pierwszy wiersz jako nagłówek , najpierw pominięto wiersze, a następnie informacje nagłówka są odczytywane z pliku wejściowego.
Format tekstu rozdzielanego jako miejsce docelowe
Po wybraniu pozycji Ustawienia w sekcji Format pliku w oknie dialogowym Ustawienia formatu pliku zostaną wyświetlone następujące właściwości.
Typ kompresji: koder kompresji używany do zapisywania rozdzielonych plików tekstowych.Możesz wybrać spośród typów None, bzip2, gzip, deflate, ZipDeflate, TarGzip lub tar na liście rozwijanej.
Poziom kompresji: określ współczynnik kompresji po wybraniu typu kompresji. Możesz wybrać jedną z opcji Optymalna lub Najszybsza.
- Najszybsza: operacja kompresji powinna zostać ukończona tak szybko, jak to możliwe, nawet jeśli wynikowy plik nie jest optymalnie skompresowany.
- Optymalny: operacja kompresji powinna być optymalnie skompresowana, nawet jeśli operacja trwa dłużej. Aby uzyskać więcej informacji, zobacz temat Poziom kompresji.
Ogranicznik kolumn: znaki używane do oddzielania kolumn w pliku. Wartość domyślna to przecinek (
,
).Ogranicznik wierszy: znak używany do oddzielania wierszy w pliku. Dozwolony jest tylko jeden znak. Wartość domyślna to kanał informacyjny
\n
wiersza .Kodowanie: typ kodowania używany do pisania plików testowych. Wartość domyślna to UTF-8.
Znak ucieczki: pojedynczy znak do ucieczki cudzysłowów wewnątrz wartości cytowanej. Wartość domyślna to ukośnik
\
odwrotny. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w którym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników.Znak cudzysłowu: pojedynczy znak do cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Wartość domyślna to podwójne cudzysłowy
"
. Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma znaku cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie.Pierwszy wiersz jako nagłówek: określa, czy należy traktować/tworzyć pierwszy wiersz jako wiersz nagłówka z nazwami kolumn. Dozwolone wartości są zaznaczone i niezaznaczone (wartość domyślna). Gdy pierwszy wiersz jako nagłówek jest niezaznaczony, zwróć uwagę na podgląd danych interfejsu użytkownika i dane wyjściowe działania wyszukiwania automatycznie generują nazwy kolumn jako Prop_{n} (począwszy od 0), działanie kopiowania wymaga jawnego mapowania ze źródła na miejsce docelowe i lokalizuje kolumny według porządkowych (począwszy od 1).
Wartość null: określa reprezentację ciągu wartości null. Wartość domyślna to pusty ciąg.
W obszarze Ustawienia zaawansowane na karcie Miejsce docelowe wyświetlane są dalsze właściwości powiązane z formatem tekstu rozdzielanego.
Zacytuj cały tekst: Załącz wszystkie wartości w cudzysłowie.
Rozszerzenie pliku: rozszerzenie pliku używane do nazywania plików wyjściowych, na przykład
.csv
,.txt
.Maksymalna liczba wierszy na plik: podczas zapisywania danych w folderze można zapisać w wielu plikach i określić maksymalną liczbę wierszy na plik.
Prefiks nazwy pliku: ma zastosowanie, gdy skonfigurowano maksymalną liczbę wierszy na plik . Określ prefiks nazwy pliku podczas zapisywania danych w wielu plikach, co spowodowało następujący wzorzec:
<fileNamePrefix>_00000.<fileExtension>
. Jeśli nie zostanie określony, prefiks nazwy pliku zostanie wygenerowany automatycznie. Ta właściwość nie ma zastosowania, gdy źródło jest magazynem opartym na plikach ani opcją partycji włączonego magazynu danych.
Podsumowanie tabeli
Rozdzielany tekst jako źródło
Następujące właściwości są obsługiwane w sekcji Źródło działania kopiowania podczas używania formatu tekstu rozdzielanego.
Nazwa | Opis | Wartość | Wymagane | Właściwość skryptu JSON |
---|---|---|---|---|
Format pliku | Format pliku, którego chcesz użyć. | Rozdzielany tekst | Tak | type (w obszarze datasetSettings ):Rozdzielany tekst |
Typ kompresji | Koder kodowy kompresji używany do odczytywania rozdzielanych plików tekstowych. | Wybierz spośród opcji: Brak bzip2 Gzip Deflate ZipDeflate TarGzip Tar | Nie | type (w obszarze compression ):bzip2 |
Zachowaj nazwę pliku zip jako folder | Wskazuje, czy podczas kopiowania zachować nazwę źródłowego pliku zip jako strukturę folderów. Ma zastosowanie podczas wybierania kompresji ZipDeflate . | Wybrane lub usuń zaznaczenie | Nie | preserveZipFileNameAsFolder (w obszarze compressionProperties ->type jako ZipDeflateReadSettings ) |
Zachowaj nazwę pliku kompresji jako folder | Wskazuje, czy podczas kopiowania zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów. Ma zastosowanie podczas wybierania kompresji TarGzip/tar . | Wybrane lub usuń zaznaczenie | Nie | preserveCompressionFileNameAsFolder (w obszarze compressionProperties —>type jako TarGZipReadSettings lub TarReadSettings ) |
Poziom kompresji | Współczynnik kompresji. Dozwolone wartości są optymalne lub najszybsze. | Optymalna lub najszybsza | Nie | poziom (w obszarze compression ):Najszybszy Optymalne |
Ogranicznik kolumn | Znaki używane do oddzielania kolumn w pliku. | < ogranicznik wybranej kolumny > Przecinek , (domyślnie) | Nie | columnDelimiter |
Ogranicznik wierszy | Znak używany do rozdzielania wierszy w pliku. | < ogranicznik wybranego wiersza > \r ,\n (domyślnie) lub r\n | Nie | rowDelimiter |
Kodowanie | Typ kodowania używany do odczytu/zapisu plików testowych. | "UTF-8" (domyślnie),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140"", "IBM01141", "IBM01142", "IBM01143", "IBM011444", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nie | encodingName |
Znak ucieczki | Pojedynczy znak do ucieczki cudzysłowów wewnątrz wartości cudzysłowu. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w którym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników. | < wybrany znak ucieczki > Ukośnik odwrotny \ (domyślnie) | Nie | escapeChar |
Znak cudzysłowu | Pojedynczy znak do cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma znaku cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie. | < wybrany znak cudzysłowu > Cudzysłów " (domyślnie) | Nie | quoteChar |
Pierwszy wiersz jako nagłówek | Określa, czy należy traktować pierwszy wiersz w danym arkuszu/zakresie jako wiersz nagłówka z nazwami kolumn. | Wybrane lub niezaznaczone | Nie | firstRowAsHeader: prawda lub fałsz (wartość domyślna) |
Wartość null | Określa reprezentację ciągu wartości null. Wartość domyślna to pusty ciąg. | < reprezentacja ciągu wartości null > pusty ciąg (domyślnie) | Nie | nullValue |
Pomiń liczbę wierszy | Wskazuje liczbę niepustych wierszy do pominięcia podczas odczytywania danych z plików wejściowych. Jeśli określono wartość Pomiń liczbę wierszy i Pierwszy wiersz jako nagłówek , najpierw pominięto wiersze, a następnie informacje nagłówka są odczytywane z pliku wejściowego. | < liczba wierszy pominięcia > | Nie | skipLineCount |
Rozdzielany tekst jako miejsce docelowe
Następujące właściwości są obsługiwane w sekcji miejsce docelowe działania kopiowania w przypadku korzystania z formatu tekstu rozdzielanego.
Nazwa | Opis | Wartość | Wymagane | Właściwość skryptu JSON |
---|---|---|---|---|
Format pliku | Format pliku, którego chcesz użyć. | Rozdzielany tekst | Tak | type (w obszarze datasetSettings ):Rozdzielany tekst |
Typ kompresji | Koder kompresji używany do pisania rozdzielanych plików tekstowych. | Wybierz spośród opcji: Brak bzip2 Gzip Deflate ZipDeflate TarGzip Tar | Nie | type (w obszarze compression ):bzip2 |
Zachowaj nazwę pliku zip jako folder | Wskazuje, czy podczas kopiowania zachować nazwę źródłowego pliku zip jako strukturę folderów. | Wybrane lub usuń zaznaczenie | Nie | preserveZipFileNameAsFolder (w obszarze compressionProperties ->type jako ZipDeflateReadSettings ) |
Zachowaj nazwę pliku kompresji jako folder | Wskazuje, czy podczas kopiowania zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów. | Wybrane lub usuń zaznaczenie | Nie | preserveCompressionFileNameAsFolder (w obszarze compressionProperties —>type jako TarGZipReadSettings lub TarReadSettings ) |
Poziom kompresji | Współczynnik kompresji. Dozwolone wartości są optymalne lub najszybsze. | Optymalna lub najszybsza | Nie | poziom (w obszarze compression ):Najszybszy Optymalne |
Ogranicznik kolumn | Znaki używane do oddzielania kolumn w pliku. | < ogranicznik wybranej kolumny > przecinek , (domyślnie) | Nie | columnDelimiter |
Ogranicznik wierszy | Znak używany do rozdzielania wierszy w pliku. | < ogranicznik wybranego wiersza > \r ,\n (domyślnie) lub r\n | Nie | rowDelimiter |
Kodowanie | Typ kodowania używany do odczytu/zapisu plików testowych. | "UTF-8" (domyślnie),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140"", "IBM01141", "IBM01142", "IBM01143", "IBM011444", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nie | encodingName |
Znak ucieczki | Pojedynczy znak do ucieczki cudzysłowów wewnątrz wartości cudzysłowu. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w którym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników. | < wybrany znak ucieczki > Ukośnik odwrotny \ (domyślnie) | Nie | escapeChar |
Znak cudzysłowu | Pojedynczy znak do cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma znaku cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie. | < wybrany znak cudzysłowu > Cudzysłów " (domyślnie) | Nie | quoteChar |
Pierwszy wiersz jako nagłówek | Określa, czy należy traktować pierwszy wiersz w danym arkuszu/zakresie jako wiersz nagłówka z nazwami kolumn. | Wybrane lub niezaznaczone | Nie | firstRowAsHeader: prawda lub fałsz (wartość domyślna) |
Zacytuj cały tekst | Ujmij wszystkie wartości w cudzysłowie. | Wybrane (domyślne) lub niezaznaczone | Nie | quoteAllText: true (wartość domyślna) lub fałsz |
Formatem | Rozszerzenie pliku używane do nazywania plików wyjściowych. | < rozszerzenie pliku > .txt (domyślnie) | Nie | fileExtension |
Maksymalna liczba wierszy na plik | Podczas zapisywania danych w folderze można wybrać zapisywanie w wielu plikach i określić maksymalną liczbę wierszy na plik. | < maksymalna liczba wierszy na plik > | Nie | maxRowsPerFile |
Prefiks nazwy pliku | Ma zastosowanie, gdy skonfigurowano maksymalną liczbę wierszy na plik . Określ prefiks nazwy pliku podczas zapisywania danych w wielu plikach, co spowodowało następujący wzorzec: <fileNamePrefix>_00000.<fileExtension> . Jeśli nie zostanie określony, prefiks nazwy pliku zostanie wygenerowany automatycznie. Ta właściwość nie ma zastosowania, gdy źródło jest magazynem opartym na plikach ani opcją partycji włączonego magazynu danych. | < prefiks nazwy pliku > | Nie | fileNamePrefix |
Następne kroki
Omówienie łączników